论文聚焦｜ICML’26｜大语言模型中可控多元价值对齐的共识表征与价值特定表征解耦

近日，实验室博士生周健魁作为第一作者的论文"Disentangling Consensus and Value-Specific Representations for Controllable Pluralistic Value Alignment in LLMs" 被Forty-Third International Conference on Machine Learning (ICML 2026) 会议录用。

大模型不同价值维度通常彼此相关、同时存在，导致各“价值专家”的表征高度相似、相互纠缠。结果是，调整某一种价值专家的作用时，可能会无意中影响其他价值，限制了精细化控制能力。为解决这一问题，提出了 DisAlign，一种模型合并框架。它从信息几何的视角，将价值表征显式拆分为共识部分和价值特定部分：先提取不同价值之间共享的共识锚点与子空间，再对剩余表征做谱分解，构造彼此解耦的价值子空间。这样可以更准确、独立地调节多种价值。在涵盖三种不同价值框架的数据集实验中，DisAlign 相比现有基线方法，持续提升了价值解耦效果，并实现了更准确的多元价值控制。

会议简介

ICML (International Conference on Machine Learning) 是机器学习顶级国际学术会议，是中国计算机学会推荐的A类国际学术会议。ICML汇集了来自学术界和工业界的研究人员，共同探讨机器学习理论，优化、统计算法等领域的前沿研究。今年，该会议计划于2026年7月6日至10日在韩国首尔召开。本届ICML会议共收到超过3万篇投稿，其中6352篇论文被接受，录用率26.6%

论文简介
大语言模型中可控多元价值对齐的
共识表征与价值特定表征解耦

论文链接：https://icml.cc/virtual/2026/poster/66729

代码仓库：https://github.com/erzhoujk/DisAlign

随着大语言模型被广泛应用到真实场景中，传统只追求“平均偏好”或单一价值取向的对齐方法，已经难以满足现实需求，因为不同用户、文化和任务场景往往对应着不同且可组合的人类价值观。因此，“多元价值对齐”变得越来越重要，模型应当能够根据不同价值维度及其权重，实现可控的行为调节。现有方法虽然已经尝试通过提示、单独训练价值专家模型，或通过参数合并来实现多价值对齐，但在真实数据中，不同价值通常不是孤立出现的，而是彼此相关、共同表达的，这使得模型内部学到的价值表示往往高度相似并相互纠缠。

要想实现上述的这种精准对齐，面对的核心挑战在于：如何把多种价值中“共享的共识部分”和“各价值独有的特定部分”有效分离出来。由于不同价值专家在训练时会受到混合价值信号的共同影响，调整某一个价值维度的强度时，往往会连带影响其他价值维度，导致控制不够精细、独立性不足。此外，如果直接做参数干预，还可能破坏模型原有的通用能力，出现所谓的“对齐税”。我们通过去除共识部分实现多价值观表征的解耦，实现对多个价值维度更精准、低干扰、可独立调节的控制。

方法概述

本文提出了 DisAlign，一种面向大语言模型可控多元价值对齐的模型合并框架。其核心思想是将不同价值专家中混杂在一起的表征，显式拆分为两部分：一部分是多个价值共享的“共识成分”，另一部分是各个价值独有的“价值特定成分”。具体来说，DisAlign首先从信息几何视角出发，通过专家分布的乘积形式提取一个能够刻画多价值共同结构的共识锚点与共识子空间。

其次，对去除共识后的剩余表示进行分解和正交化，构造彼此解耦的价值特定子空间。最终，模型可以通过线性组合共识部分和用户指定权重的价值特定部分，实现对多种价值维度更精确、独立的调节。相比现有直接合并价值专家的方法，该方法减少了不同价值之间的相互干扰，同时尽可能保留了模型原有的通用能力。

实验结果

我们在三个价值观真实数据集（MIC, Daily Dilemmas, ValuePrism）上，使用两种代表性LLM backbone（Llama3.2-3B和Qwen3.5-4b）进行了广泛实验，结果展示在表1中:

可以发现: DisAlign的表现优于其他方法，尤其是在随机组合的多元价值观对齐场景，实现了多元化对齐的精准调控。另外我们的方法相比多目标优化和其他模型合并方法可以取到更大的帕累托边界

并且我们首先通过POE理论，只通过一次数据遍历计算费舍尔信息矩阵就可以识别共识表征部分，

在对去除共识部分后价值观表征正交化处理，不仅实现了多元价值观的解耦，还避免了对齐税的产生，实现持续价值对齐：

讨论

1. 实际应用价值

这项研究的实用价值主要体现在，它让大语言模型的价值对齐从“整体调一个大方向”提升到“按具体价值维度精细调节”。在真实应用中，用户、机构和文化背景的价值偏好往往并不相同，而且这些偏好还需要动态组合，因此一个能够独立控制“关怀、公平、忠诚、真实”等不同价值权重的模型，比只适配单一价值标准的模型更有落地意义。DisAlign 提供了一种更可控的技术路径，使系统能够根据场景需求灵活调整输出风格和决策倾向，适用于智能助手、教育、医疗、公共服务等对价值表达较敏感的场景。此外，这项工作还有很强的工程意义。它不是每次都重新训练一个新模型，而是通过对多个价值专家进行结构化合并来实现控制，因此更有扩展性和部署效率。更重要的是，它试图减少价值调节过程中的“串扰”和“对齐税”问题，也就是避免在加强某一价值时误伤其他价值，或明显损害模型原有的通用能力。这意味着该方法更有希望被用于构建既安全、又灵活、还能保持性能稳定的实际大模型系统。

2. 研究的局限性和未来方向

首先，DisAlign 依赖“局部二次近似”和“局部度量同质性”等假设，即默认各个价值专家都分布在基座模型附近，并且它们在局部具有相对一致的信息几何结构。如果模型经过非常强的优化、与基座模型偏移过大，这种近似可能失效，影响共识锚点和价值子空间分解的准确性。其次，该方法主要适用于“预先定义好价值维度、且已有对应偏好数据”的场景，因此对开放世界中更动态、更模糊、甚至不断演化的价值需求，适应性仍然有限。

未来的研究方向可以从几个方面展开：一是放宽当前的局部几何假设，使方法能够适应更大幅度的模型偏移和更复杂的对齐训练过程；二是将该框架推广到更开放、动态的价值体系中，而不只依赖固定的价值标签和静态偏好数据；三是进一步研究价值控制与模型通用能力保持之间的平衡，降低“对齐税”在更复杂任务中的风险；四是加强在人类真实使用场景中的评测，例如多轮对话、群体差异、文化迁移和长期行为一致性等问题。总体来说，这篇工作为“精细可控的多元价值对齐”提供了一个有力起点，但要真正走向大规模实际应用，还需要在泛化性、鲁棒性和开放环境适应性上继续推进。

总结

本研究的主要贡献如下：

(1) 我们识别出多元价值对齐中“精确权重控制”的关键挑战，并提出了 DisAlign，这一新框架能够显式地将价值共享的共识成分与价值特定成分分解开来，从而实现解耦且精确的价值控制。

(2) 我们在信息几何框架下对这种分解进行建模，以捕捉语义层面的价值共识，并保证不同价值调节过程中的低干扰性。

(3) 大量实验结果表明，DisAlign 能够学习到更加解耦的价值表征，并显著提升多元价值对齐的可控性。

如果您对本文内容感兴趣，可与通讯作者联系: zhangpeng_@fudan.edu.cn

实验室相关论文

[1] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning (ICLR'24)

[2] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization (EMNLP‘24)

如果您对我们实验室的相关工作感兴趣，欢迎访问我们的网站：

协同信息与系统实验室（CISL）

实验室网站主页：https://cscw.fudan.edu.cn/

实验室Github主页：https://github.com/FudanCISL

论文聚焦｜ICML’26｜大语言模型中可控多元价值对齐的共识表征与价值特定表征解耦

会议简介

论文简介
大语言模型中可控多元价值对齐的
共识表征与价值特定表征解耦

方法概述

实验结果

讨论

总结

评论 0

近期热门新闻

下一篇

论文聚焦｜ICML’26｜大语言模型中可控多元价值对齐的共识表征与价值特定表征解耦

会议简介

论文简介大语言模型中可控多元价值对齐的共识表征与价值特定表征解耦

方法概述

实验结果

讨论

总结

评论 0

近期热门新闻

下一篇

论文简介
大语言模型中可控多元价值对齐的
共识表征与价值特定表征解耦