AI4SS论文聚焦｜CHI’26｜权力的回声：在线权力不对称冲突中的审核偏见研究

论文导读

在每一次在线纠纷中，规则、威胁、专业术语如同隐形的砝码，将公正的天平悄悄拽向强势一方。或许都曾体会：对方一句“这是平台规定”，就轻易瓦解了你所有的据理力争。

人类审核者难逃这权力引力，AI的加入像一面布满指纹的镜子——擦除了多数偏见污迹，却在权威的角度反射出更刺目的光。

偏见并非靠技术就能一键清零，它是权力结构的固有回响，若不剥离这层底色，AI只会让旧日回声借新声放大，弱势者的控诉终将沉没于喧嚣。

近日，人机交互顶级学术会议 The ACM CHI conference on Human Factors in Computing Systems，CHI 2026（CCF A类会议）在西班牙巴塞罗那举行。实验室博士生李亚琼作为第一作者，发表论文“Power Echoes: Investigating Moderation Biases in Online Power-Asymmetric Conflicts”。

在当今平台治理日益重要的背景下，内容审核的公正性成为广受关注的话题。该文章聚焦在线权力不对称冲突中的内容审核偏见问题，结合社会心理学“社会权力基础”理论，系统探讨了人类审核员在面临权力不对称冲突时所表现出的权力相关偏见类型，并进一步分析了AI建议对这些偏见的影响。本研究以在线环境中真实发生的消费者与商家冲突为实验情境，采用混合实验设计方法对50名参与者开展了系统研究。研究发现，人类审核员在审核过程中存在五种倾向于支持权力强势方的偏见类型，包括合法诉求、惩罚威胁、补偿、专业知识以及内容长度偏见。这些因素会在无形中影响审核判断，使人类审核员更倾向于支持权力强势方（商家）。当AI建议被引入协助审核决策时，我们发现多数审核偏见得到明显缓解，包括惩罚威胁、补偿、专业知识和内容长度偏见；少数偏见却被放大，其中合法诉求偏见被加剧，新的权威引用偏见被引入。基于上述发现，本文不仅揭示了在线权力不对称冲突情境下的内容审核机制，也为未来构建更加公平的人机协作审核系统提供了重要启示，尤其是设计AI辅助的内容审核系统时，需考虑其可能对人类判断产生的放大效应，从而在技术赋能的同时，避免新的偏见被引入。

会议简介

ACM CHI 2026 (The ACM Conference on Human Factors in Computing Systems)是国际公认的人机交互顶级学术会议，其在学术界和工业界享有极高声誉，是中国计算机学会推荐的A类国际学术会议。与其它计算机科学会议相比，CHI规模庞大，更加注重人与技术之间的互动、探索创新的交互方式、新兴技术在真实世界的应用、以及技术使用中的社会影响与伦理因素。今年CHI 2026会议录用结果公布，本次会议共收到6730份完整投稿，最终录用1703篇，录用率为25.3%。

论文简介

论文链接：https://arxiv.org/abs/2603.01457

Twitter和Yelp等平台一直是促进社交互动和活动的重要媒介。随着这些平台的用户基数不断扩大，不同角色之间的冲突变得日益普遍，给平台监管带来了挑战。例如，在像Yelp这样的电子商务平台上，消费者与商家之间因产品质量或服务问题而产生的冲突频繁发生。根据《全球数字信任与安全指数》报告，2023年第三季度全球范围内此类冲突报告多达数百万起。不同角色之间的冲突通常具有显著的结构性特征，它们往往发生在权力不对等的关系中。一方通常拥有更多的专业知识和资源（例如商家或雇主），而另一方则缺乏冲突解决经验，并严重依赖平台的协调（例如消费者或工人）。以在线购物场景为例，当消费者对商品质量提出投诉并给出负面评价时，商家可能会援引平台的“恶意评价处理规则”来提出投诉，并提供详细的解释。相比之下，消费者的谈判技巧、规则解释能力以及申诉渠道通常都很有限，他们难以提供更多的证据，最终导致他们的评价被判定为不合适。

许多平台引入了审核策略来处理权力不对等的冲突问题。与传统内容审核方式（如毒性语言审核和隐私内容审核）不同，权力不对等冲突审核需要在权力失衡的背景下以及双方模糊表述的情况下，对“谁更可信、谁应该得到支持”做出判断，这大大增加了审核的难度。因此，目前多数平台依靠人工审核员或众包审核员来进行权力不对等冲突审核。然而，现有研究表明，在涉及主观判断的冲突场景中，人工审核员往往难以始终保持中立，他们的观点往往受到政策模糊性、任务压力或个人信念的影响。例如，Reddit 监督者在处理用户冲突时往往会强化现有的权力结构和主导的社区价值观，从而导致边缘化的声音被忽视或删除。心理学中的“弱者效应”也表明，人类审核员在冲突判断中可能会同情较弱的一方。这些发现表明，在权力不对等的冲突审核中，人类审核员的判断不仅会受到个人立场和偏好的影响，还会受到强势一方的社会权力线索（如语言风格、规则引用和表达自信）的进一步放大，从而影响监督过程的公正性。因此，本文提出第一个研究问题（RQ1）：在处理权力不对等的冲突时，人类审核员会表现出哪些与权力相关的偏见？

随着基于机器学习和深度学习的AI工具的不断发展，尤其是大型语言模型（LLMs）的出现，AI辅助的审核工作在各种平台上变得越来越普遍。它们被广泛用于生成解释、提供决策建议以及确定风险等级，从而显著提高了内容审核效率。然而，现有研究表明，人类审核员对 AI 生成建议的接受程度也受到人们对该建议是否由AI生成这一认知的影响。这种现象属于算法遵从效应，即用户对“这是GPT-4大模型的判断结果。”可能会持有不同态度。因此，本文进一步提出第二个研究问题（RQ2）：AI生成的建议将如何影响在权力不对称冲突审核中的人类审核员的权力相关偏见？这些偏见会增强还是减轻？

为解决两个研究问题，本文关注两种判断模式，即人类审核和人类与AI协作审核，并系统地探究了在权力不对称冲突审核中相应的偏见类型。基于“社会权力基础”理论中定义的六种权力类型，我们将消费者与商家之间的冲突作为代表性的权力不对称场景，并从大众点评平台收集真实数据以进行审核偏见研究。我们通过编码方式提取了与在线冲突情境相匹配的权力表现形式，然后引入了权力不对称冲突审核中潜在的与权力相关偏见的分类，例如合法诉求偏见、惩罚威胁偏见等。然后，本文采用包括组间和组内实验的混合设计方法，并开发了一个名为“I Support”的程序进行实验。实验共招募了50 名参与者，并随机分配到人类审核和人类与AI协作审核组。对于RQ1，人类审核组的参与者独立阅读权力不对等的冲突样本，且不受外部建议的影响。每个冲突样本包含一种权力表现（例如合法诉求），参与者需要使用Likert 量表判断他们希望支持哪一方。研究中的“支持某一方”意味着审核员认为该方陈述更合理或更可信。通过比较他们在不同情况下的决策，我们可以确定哪些权力表现更有可能引发有偏见的判断，从而揭示人类审核中存在的偏见。对于RQ2，对于相同的冲突样本，人类与AI协作审核组的参与者会获得额外的AI生成建议。为了控制不同大语模型输出的潜在差异，本文采用了“Wizard-of-Oz”设计，从而研究参与者对AI生成建议的看法如何影响他们的审核决策。具体地，我们首先利用来自真实审核员的众包数据编制了高质量建议，并告知参与者这些建议是由“AI”生成的。通过比较两组在不同权力表现下的判断，我们探究了AI辅助审核是否会放大或减轻不同的偏见。通过定性定量分析发现，对于RQ1，人类审核存在五种与权力相关的偏向，倾向于支持权力强势方（商家）。对于RQ2，这些偏见在人类与AI协作审核中依然存在。尽管AI辅助缓解了人类审核中的大部分偏见数审核偏见得到明显缓解，包括惩罚威胁、补偿、专业知识和内容长度偏见；但它也放大了少数偏见，其中合法诉求偏见被加剧，新的权威引用偏见被引入。此外，当AI生成建议采用不支持对立方的观点策略时，可能会促使审核员支持权力弱势方（消费者）。这些发现为改进审核过程和减轻审核偏见提供了实证依据。

在线权力不对称冲突的权力表现形式

本文首先回顾了社会互动中的权力类型，并根据现有理论和实证研究推导出相应的潜在偏见类别。社会心理学家提出的“社会权力基础”理论将社会权力分为六类：合法权力、强制权力、奖励权力、专家权力、参照权力和信息权力。这一框架已在线下人际互动、组织沟通和谈判研究中得到广泛应用，近年来也用于解释在线互动中的权力动态。这些应用为描述权力关系和理解在线冲突中的权力不对称提供了理论视角。因此，本研究以“社会权力基础”理论为参考，将在线消费者与商家之间的冲突作为研究场景进行了实证分析，系统地探究在线权力不对称冲突中各类权力的表现形式。

数据收集：本文选择“大众点评”平台作为数据来源，原因包括：1）大众点评是中国领先的本地生活服务平台，涵盖餐饮、酒店、娱乐和旅游等领域，拥有超过 2.5亿用户，其功能与Yelp和TripAdvisor类似；2）大众点评的评论区中消费者与商家之间存在大量争议和冲突，这些冲突表现出信息不对称和角色地位差异等权力不对等的特点；3）该平台提供“公众评论”功能，这是一种典型的众包审核方法。该功能公开展示了冲突样本，并允许不同用户投票，同时还会显示投票结果和详细原因。

整体分析：依据“社会权力基础”理论，我们对在线冲突语料库中六种权力类型的具体表现形式进行了研究。通过开放式迭代编码等定性分析方法，我们对冲突语料库中的六种权力类型的表现形式进行分析，最终提取了十种权力表现形式，包括合法诉求、权威引用、惩罚威胁、补偿、专家知识、群体偏好、陈述顺序、表达语气、选择陷阱和长度差异（见表1）。

表1 在线权力不对称冲突中的权力表现形式

实验设计

基于权力不对等表现分类法，本文采用干预设计来探究审核员与权力相关的偏见，流程如图1所示。我们首先通过在真实冲突语料库中添加与每个偏见相关的干扰来准备实验数据（见表2），然后采用包含组间和组内变量的混合实验设计（见图3）。其中，组间变量区分人类审核和人类-AI协作审核模式，组内变量是每个参与者随机阅读冲突样本的初始版本或干扰版本。

图1 实验设计流程

表2 初始样本和干扰样本示例

图2 “I Support”程序设计

结果分析

本节展示了实验结果。首先，本文展示了人类审核组和人类与AI协作审核组在判断任务中的总体结果（表3），以验证数据分布的均衡性。针对RQ1，本文研究了人类审核小组在不同干扰下的判断变化情况。对于RQ2，本文分析了人类审核组和人类与AI协作审核组在不同条件下的判断变化情况。最后，我们比较这两种模式之间的差异，以揭示AI辅助可能产生的潜在影响。本文使用G*Power方法对实验数据进行功效分析，基于来自同一样本ID在不同条件下的配对结果采用配对t-test方法。在效应大小为Cohen’s dz = 0.50，显著性水平0.05，统计功效0.95的条件下，两组完成配对样本均达到阈值（54），确保统计功效。为避免参与者主观偏见的影响，本文对人类审核组在初始条件下的判断结果进行了混合效应模型分析，用户ID和初始样本ID被设定为随机截距。结果表明，模型截距不显著，参与者对商家或消费者没有表现出显著的偏向。对于随机效应，用户层面的方差较小（0.31），表明参与者没有展现出明显个体差异；样本层面的方差（0.62）显示不同的初始样本在审核过程中虽引入波动，但未达到统计学显著水平。

表3 不同干扰条件下，人类审核和人类与AI协作审核组样例完成的数量分布

人类审核员在多数干扰条件下倾向于支持权力强势方：在人类审核结果分析中，我们发现有五种权力表现形式能够显著影响审核员的判断（见表4和图3），包括合法诉求、惩罚威胁、补偿、专业知识以及长度差异，这些因素促使审核员倾向于支持处于强势地位的一方（即商家）。此外，尽管其他干扰因素未达到统计学显著水平，但分布变化和访谈反馈表明它们也可能对审核员的判断产生影响。

表4 人类审核和人类与AI协作审核组的组内配对t-test结果

图3 与初始样本相比，不同干扰条件下人类审核组的选择分布

与权力相关的偏见在人类与AI的协作审核中依然存在：人类与AI协作审核在多数干扰条件下仍倾向于支持权力强势方。在人类与人工智能的审核过程中，我们发现有五种权力表现形式会影响审核者的判断（见表4和图4），包括合法诉求、权威依据、惩罚威胁、补偿以及长度差异，这些因素引发了偏向支持强势一方（商家）的偏见。尽管其他干扰因素未达到统计学显著水平，但选择“中立”的比例呈现出下降趋势，这表明这些表现促使审核者将判断从中立转向明确立场。AI缓解了多数与权力有关的偏见，但也强化了少数偏见。在不同干扰条件下，AI的引入对审核因素有着不同的影响（见表5和图5)。对于人类审核中多数与权力相关的偏见，引入AI生成的建议能够减轻审核员在支持强势一方时的偏见。然而，在合法诉求干扰条件下，AI则会放大现有偏见。

图4 与初始样本相比，不同干扰条件下人类与AI协作审核组的选择分布

表5 人类审核和人类与AI协作审核组的组间配对t-test结果

图5 与人类审核组相比，人类与AI协作审核组在不同干扰条件下的选择变化

小结

本文详细研究了权力不对等冲突中人类审核和人类与AI协作审核两种模式的权力有关偏见。通过一项包含50名参与者的混合设计实验，我们发现两种审核模式均表现出对支持权力强势方的权力相关偏见。尽管AI生成的建议缓解了人类审核员的多数偏见，但它也放大了少数偏见。此外，当AI生成的建议采用不支持对方的原因策略展示时，也会一定程度上促进审核员支持权力弱势方。这些发现为权力不对等冲突审核机制和AI辅助的审核系统设计提供了若干见解。

如果您对本文内容感兴趣，可与通讯作者联系: zhangpeng_@fudan.edu.cn

实验室相关论文

[1] Yaqiong Li, Peng Zhang, Hansu Gu, Tun Lu, Siyuan Qiao, Yubo Shu, Yiyang Shao, and Ning Gu. 2025. DeMod: A Holistic Tool with Explainable Detection and Personalized Modification for Toxicity Censorship. Proc. ACM Hum.-Comput. Interact. 9, 2, Article CSCW061 (May 2025), 24 pages.

[2] Wenxin Zhao, Fangyu Yu, Peng Zhang, Hansu Gu, Lin Wang, Siyuan Qiao, Tun Lu, and Ning Gu. 2025. YouthCare: Building a Personalized Collaborative Video Censorship Tool to Support Parent-Child Joint Media Engagement. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (CHI '25). Association for Computing Machinery, New York, NY, USA, Article 1042, 1–20.

[3] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, and Ning Gu. 2025. Filtering Discomforting Recommendations with Large Language Models. In Proceedings of the ACM on Web Conference 2025 (WWW '25). Association for Computing Machinery, New York, NY, USA, 3639–3650.

如果您对我们实验室的相关工作感兴趣，欢迎访问我们的网站：

协同信息与系统（CISL）实验室

实验室网站主页：https://cscw.fudan.edu.cn/

实验室Github主页：https://github.com/FudanCISL