2
点赞
0
评论
0
转载
我要入驻

AI4SS论文聚焦|CHI’26|反言论机器人赋能在线社区规范塑造:基于策略框架的旁观者影响实证研究

收录于合集: # 快讯

论文导读

当你在评论区偶遇一句刺眼的恶言,手指悬在键盘上,最终却还是划走——怕孤军奋战,怕恶意反扑,怕那句“关你什么事”。这一刻,你成为沉默的大多数。

基于大语言模型的反言论助手 Civilbot,则像一台内置策略引擎的辩手:它能识别仇恨言论的上下文,自动援引事实与逻辑,生成理性或感性的反驳。旁观者只需按下一个“赞”——因为你看到了意见的代表,也看到了可以模仿的榜样。它输出的每一条回应,都是一份可复用的模板,让犹豫的人终于敢写下自己的第一句反驳,或者留下哪怕只是声援与表态。

算法不止会筑起信息茧房,也能成为社群文明的锚点。只要有人率先开口,定下文明的基调,沉默便不再是唯一答案。

近日,人机交互顶级学术会议 The ACM CHI conference on Human Factors in Computing Systems,CHI 2026(CCF A类会议)在西班牙巴塞罗那举行。实验室博士生王梦瑶作为第一作者,在会上报告论文“Echoes of Norms: Investigating Counterspeech Bots' Influence on Bystanders in Online Communities”。

反言论(counterspeech)为在线社区治理仇恨言论提供了一种非压制性的替代路径。既有研究主要关注反言论聊天机器人如何约束仇恨发言者、支持受害者,却较少探讨其对“旁观者”的影响。然而,在多数网络冲突场景中,真正占据数量优势、并潜在影响舆论走向的,往往正是这些未直接发声的旁观者。为此,我们构建了一个系统化的反言论策略框架,并基于该框架开发了反言论机器人 Civilbot,通过混合方法的被试内实验设计,系统考察其对旁观者认知与行为的影响。研究发现,旁观者普遍认为 Civilbot 具有较高的可信度与规范性,但其相对浅层的论证深度在一定程度上限制了说服效果。其行为影响呈现出微妙而情境化的特征:当表现良好时,机器人能够引导旁观者参与讨论,甚至在一定程度上“代为发声”;当表现欠佳时,则可能抑制旁观者参与,或反向激发其主动介入。进一步分析表明,策略选择至关重要。诉诸理性的认知型策略整体更为有效,尤其是在搭配积极语气时效果更佳;而策略与语境的不匹配则可能削弱影响力。基于上述发现,我们提出了一系列面向设计的启示,旨在更有效地动员旁观者、塑造在线讨论的互动规范,强调在何时介入、如何通过以推理为核心、具备情境敏感性的策略实现更具建设性的公共对话。

本研究不仅拓展了对反言论机器人作用机制的理解,也为在线社区中“规范如何被看见、被回应、被再生产”这一问题提供了新的实证视角。通过关注旁观者这一长期被忽视的关键群体,我们揭示了技术如何在不依赖压制性手段的前提下,潜移默化地影响公共讨论生态,并为构建更具包容性与理性表达空间的数字社区提供了理论与实践基础。

会议简介

图片

ACM CHI 2026 (The ACM Conference on Human Factors in Computing Systems)是国际公认的人机交互顶级学术会议,其在学术界和工业界享有极高声誉,是中国计算机学会推荐的A类国际学术会议。与其它计算机科学会议相比,CHI规模庞大,更加注重人与技术之间的互动、探索创新的交互方式、新兴技术在真实世界的应用、以及技术使用中的社会影响与伦理因素。今年CHI 2026会议录用结果公布,本次会议共收到6730份完整投稿,最终录用1703篇,录用率为25.3%。

论文简介

图片

论文链接:https://arxiv.org/abs/2603.03687

在线社区旨在构建开放、多元与理性讨论的公共空间,但仇恨言论(hate speech)的扩散正在持续削弱这一理想。仇恨言论通常指针对特定群体、具有攻击性与伤害性的表达形式,不仅会对个体造成情绪与心理层面的严重伤害,也会在群体层面强化刻板印象与社会偏见。更重要的是,它具有明显的传播与模仿效应:当用户暴露于敌意表达时,即便本身并非高度攻击性个体,也更可能产生类似言论,从而推动负面互动的扩散。这一过程本质上影响的并不仅是单条内容,而是社区规范(community norms)的形成机制。在线讨论中的“什么可以说”“什么值得回应”“什么会被默认”并非天然存在,而是在互动中不断被再生产。当仇恨言论频繁出现且缺乏公开回应时,沉默可能被误读为容忍,进一步固化“多数人默认”的社会感知。传统内容审核(content moderation)主要依赖删除、封禁或降权等限制性手段。然而,过度依赖压制式干预可能带来误删风险,也难以处理隐性或语境化的仇恨表达。在此背景下,反言论(counterspeech)逐渐被视为一种非压制性(non-repressive)、以“以言对言”为核心的替代路径。通过公开回应、理性论证、情感支持或价值重申,反言论不仅针对具体事件发声,更通过可见的表达影响旁观者认知,从而参与社区规范的塑造。

随着生成式人工智能的发展,反言论聊天机器人(counterspeech chatbot)逐渐成为可能。已有研究围绕语料构建、生成模型训练与策略增强展开,重点考察其如何约束仇恨发言者或支持受害者。然而,作为在线社区中人数最多、影响广泛的群体,针对旁观者(bystanders)的研究却不足。旁观者并非中立存在。他们通常倾向于反对仇恨言论,却往往选择沉默。沉默可能被解读为默认,从而强化“多数人容忍仇恨”的感知,并加剧沉默螺旋(spiral of silence)。既有研究表明,人类发起的反言论能够打破这种感知,甚至触发从众效应(herd effect),激发更多人发声。然而,当反言论由机器人发出时,它是否能够产生类似的社会影响?这种技术介入,是否同样能够改变旁观者的认知与行为倾向?为此,本研究提出两个核心研究问题:

  • RQ1:旁观者在多大程度上认同聊天机器人的反言论,并在行为倾向上发生变化(例如,对论证强度的感知、对机器人的可信度评价,以及自身进行反言论的信心)?

  • RQ2:不同类型的聊天机器人反言论策略,如何影响旁观者对回应的认同程度,以及其行为倾向的变化?

为系统研究反言论策略,我们构建了一个三维策略框架,涵盖句式形式(疑问/陈述)、语气(积极/消极)与策略意图(认知型与情感型),组合形成八种反言论策略。在此基础上,我们开发了原型机器人 Civilbot,使其能够在不同语境下生成对应策略的反言论回应。我们采用混合方法(mixed-method)的被试内实验设计(within-subject design),邀请对敏感议题感兴趣、通常在公共讨论中保持沉默、但明确反对仇恨言论的参与者加入研究。每位参与者在多个议题情境下阅读仇恨言论与 Civilbot 的回应,并完成前后测量与半结构化访谈。研究指标包括:反言论质量感知(如论证强度与说服力)、主观认同(如可信度与重要性评价),以及行为倾向(如反言论信心与参与意愿)。研究结果表明,Civilbot 的反言论能够影响旁观者对回应内容与机器人的整体判断,并对行为倾向产生细微但可观察的影响。参与者普遍认为机器人具有可信度,并能够传递社区规范信号;然而,其推理深度有限,在一定程度上制约了说服效果。行为层面呈现情境化特征:当表现良好时,机器人可以引导旁观者参与,甚至在一定程度上“代为发声”;当表现欠佳时,则可能抑制参与,或激发旁观者主动介入。策略因素具有关键作用。整体而言,认知型策略相较情感型策略更具效果;语气与句式的影响则依赖具体语境及其与策略的匹配程度。基于上述发现,我们提出了面向设计的启示:反言论机器人不仅需要判断“是否介入”,还需要明确“为何介入”,并通过以推理为核心、信息支持充分、情境敏感的策略,更有效地参与社区规范的建构。

反言论策略框架构建

表1 反驳策略的框架

图片

为了系统研究不同反言论策略对旁观者的影响,我们首先构建了一个结构化的反言论策略框架,我们围绕仇恨言论干预与反言论生成研究开展文献梳理,在既有策略标签基础上,通过归纳式编码(inductive coding)整合与重组策略类型,并以精细化可能性模型(Elaboration Likelihood Model, ELM)为理论基础,将策略区分为不同的影响路径。最终框架由三个二元维度构成:

  • 句式形式(Sentence Type)。区分疑问式与非疑问式表达。疑问式反言论(如反问)被视为一种独立策略形式,其作用在于引发批判性思考或挑战前提;其他表达形式(陈述、祈使等)则归为非疑问式。

  • 语气(Tone)。区分积极语气与消极语气。积极语气强调礼貌、合作与同理心;消极语气则更具批评性或对抗性,可能包含讽刺或直接指责。为保证实验可控性,我们采用二元划分。

  • 策略意图(Strategic Intent)。参考 ELM 理论,我们将策略意图分为认知型策略(Cognitive Strategy)和情感型策略(Affective Strategy)。前者通过改变认知路径产生影响,例如驳斥错误信息(rebutting falsehoods)或强调事实与证据(highlighting truth)。后者通过情绪唤起影响判断,例如谴责仇恨发言者(denouncing hate speakers)或支持受害群体(supporting targets of hate)。

最终构成一个 2 × 2 × 2 共八种不同反言论策略,为后续实验中的刺激材料提供清晰可控的操作基础。

 

实验设计:从真实语料到可控情境

  • 反仇恨语料构建。我们基于来自知乎(Zhihu)的中文偏见语料库 CDIAL-BIAS DATASET筛选仇恨言论样本,最终保留涵盖性别、种族、地域与职业四类议题的27条代表性仇恨言论。随后,基于前述三维反言论策略框架,利用 GPT-5 生成严格对应八种策略组合的回应文本,并通过双人标注验证其在“句式、语气、策略意图”三个维度上的一致性,确保实验材料的可控性与策略纯度。

  • 模拟平台与界面设计。为增强生态效度,我们构建了一个仿知乎结构的模拟讨论平台,复现问答浏览体验。为避免额外线索干扰,我们移除了点赞、评论排序等社会信号,仅保留问题、若干中性回答、仇恨言论及 Civilbot 的反言论回应。Civilbot被明确标注为平台官方账号,以避免人格化或性别化联想。所有视觉元素与呈现顺序均经过控制,以隔离反言论策略本身的影响。

图片

图1 模拟讨论平台的示例页面

  • 参与者招募与筛选。我们通过便利抽样与滚雪球抽样方式,在微信平台招募参与者。研究重点为“潜在旁观者”:活跃于网络社区、关注敏感议题、反对仇恨言论,但通常保持沉默的用户。样本量基于 G*Power 功效分析确定,满足重复测量设计所需统计功效,最终纳入52名有效参与者。研究通过伦理审批。

  • 实验流程。实验采用被试内设计(within-subject design),每位参与者在八个不同议题情境中分别体验八种反言论策略。参与者首先浏览仇恨言论并完成前测评价,随后阅读 Civilbot 的回应,再完成后测。议题顺序与策略分配均随机化,以避免固定搭配造成偏差。实验结束后进行半结构化访谈,深入了解参与者对机器人角色、策略效果及社区规范影响的主观理解。

图片

图2 实验流程

  • 测量指标。我们围绕反言论质量感知(如论证强度与说服力)、主观认同程度(如可信度与重要性)、行为倾向变化(如反言论信心与参与意愿)三个核心维度进行测量。

  • 数据分析。本研究采用混合方法(mixed-methods approach)。在定量分析方面,我们通过单因素与双因素方差分析(ANOVA)检验“策略意图、语气、句式形式”三个维度的主效应与交互效应,并结合探索性比较分析不同策略组合之间的差异。在定性分析方面,我们对访谈与开放式反馈进行主题分析(thematic analysis),归纳参与者对 Civilbot 可信度、情境适配性与规范影响的理解,从而补充量化结果。

实验结果

图片

图3 RQ1、RQ2结果与设计启示总览

1. RQ1:反言论机器人对旁观者的整体影响

结果显示,Civilbot 的影响是复杂而有限的,但具有稳定的规范价值。在态度层面,参与者普遍将 Civilbot 视为一种“合法的规范性声音”。它强化了“仇恨言论不可接受”的社区共识,也为长期沉默的用户提供了心理支持。然而,其说服力受到表达方式的限制。部分参与者认为回应论证较浅、表达偏模板化,显得“过于AI”,从而削弱了认知上的穿透力。在行为层面,其影响呈现分化。一方面,它提升了部分用户的反言论信心;另一方面,也可能替代沉默旁观者发声,使他们继续保持沉默。更有趣的是,当回应被认为不够有力时,反而激发了部分参与者的纠正冲动。也就是说,Civilbot 既可能引导参与,也可能成为负面示范或逆向激励。它的价值不在于动员所有人发声,而在于持续提供一个稳定的“反声部”,为旁观者提供安全定位。在社区层面,Civilbot 主要发挥调节功能:补充信息以帮助识别仇恨与错误认知,冷却情绪避免冲突升级,并引发进一步思考。它更像一个“平衡器”而非辩论者,通过维持知识与情绪的稳定,巩固社区规范。总体而言,Civilbot 能强化规范与稳定社区气候,但其说服与动员能力仍受表达质量与情境适配性的限制。

2. RQ2:不同反言论策略的差异化影响

表2 反驳策略在三种指标上的主效应

图片

表3 反驳策略在三种指标上的交互效应

图片

表4 反驳策略在三种指标上的简单效应分析

图片
  • 策略意图(Strategic Intent)的影响最为显著。认知型策略整体优于情感型策略,在感知质量、可信度与认同度上表现更好。以事实澄清、逻辑反驳为核心的回应更容易获得旁观者认可。但情感策略并非无效。参与者指出,在情绪对立较强的场景下,情感性表达可以作为铺垫,缓冲紧张氛围,为后续认知论证创造空间。因此,两类策略并非对立,而更适合情境化组合。

  • 语气(Tone)主要影响行为倾向。积极语气显著提升参与信心与发声意愿,使旁观者更愿意介入讨论。消极语气则需要谨慎控制。参与者更认可带有幽默或讽刺意味的“善意冒犯”,而非直接攻击。过强的负面表达容易削弱说服效果,甚至掩盖策略本身的意图。

  • 句式形式(Sentence Type)具有双刃剑特征。疑问式表达整体呈显著影响,但效果取决于设计方式。真诚的问题可以引导反思与信息补充;而反问或质问式表达则可能被解读为挑衅,从而降低可信度。因此,问题最有效的功能不是对抗,而是引导思考与延续对话。

  • 交互效应。语气放大或削弱策略意图。积极语气会显著放大认知型策略的效果;情感型策略在积极语气下反而可能显得表层化;在消极语气下,强烈情绪表达容易掩盖策略差异。这意味着,语气不仅是表达风格,更是影响策略可见度与可接受度的关键变量。对 Civilbot 而言,优先采用积极语气来承载认知型内容,是更稳健的组合方式。

  • 探索性发现。探索性分析进一步发现,参与者在自我生成反言论时更倾向使用负向语气,但却期待 AI 保持克制与规范。这揭示出一种潜在的人机角色分工:人类可以承担情绪表达与对抗功能,而 AI 更适合作为理性支撑与规范维护者。

设计启示:
何时介入,如何介入,以及谁在介入

  • 何时介入:针对仇恨的程度,在注意力与冲突风险之间取得平衡;

  • 如何介入:动机识别 → 推理分析 → 信息支持 → 论点构建 → 策略选择 → 风格调节;

  • 谁在介入:反言论的效果并不只取决于策略本身,还取决于“说话者是谁”,需要区分两种设计路径,一个是自主型反言论机器人,强调规范维护、客观表达与社区角色定位;AI辅助型反言论系统,保留人类发声主体,强调协作与赋能。

小结

反言论机器人提供了一种非压制、以社区为本的干预方式,它并非替代人类参与,也非单纯对抗仇恨,而是在关键时刻、以恰当方式和身份发声,稳定在线社区规范、支持旁观者,并为建设性对话保留空间。实验显示,策略选择和语气适配至关重要:认知型策略为核心,情感和问题形式可灵活组合,以应对不同情境和社区文化。更广泛地看,这类技术不仅可帮助管理仇恨言论,更有潜力塑造健康、理性、可持续的公共讨论环境,为数字社会的信任和共识建设提供新见解。

 

如果您对本文内容感兴趣,可与通讯作者联系: zhangpeng_@fudan.edu.cn

 

实验室相关论文

[1] Wenxin Zhao, Fangyu Yu, Peng Zhang, Hansu Gu, Lin Wang, Siyuan Qiao, Tun Lu, and Ning Gu. 2025. YouthCare: Building a Personalized Collaborative Video Censorship Tool to Support Parent-Child Joint Media Engagement. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (CHI '25). Association for Computing Machinery, New York, NY, USA, Article 1042, 1–20.

[2] Yaqiong Li, Peng Zhang, Hansu Gu, Tun Lu, Siyuan Qiao, Yubo Shu, Yiyang Shao, and Ning Gu. 2025. DeMod: A Holistic Tool with Explainable Detection and Personalized Modification for Toxicity Censorship. Proc. ACM Hum.-Comput. Interact. 9, 2, Article CSCW061 (May 2025), 24 pages. 

 

如果您对我们实验室的相关工作感兴趣,欢迎访问我们的网站:

协同信息与系统实验室(CISL)

实验室网站主页https://cscw.fudan.edu.cn/

实验室Github主页https://github.com/FudanCISL

学者网机构号是学者网提供的学术"公众号"平台,为学者团队、学术机构、企业等提供官方媒体账号服务,支持发布动态、活动、通知与招生招聘信息等内容,支持多人协作维护,助力机构链接学界资源、扩大学术影响力。

返回顶部