ICLR 2024参会记录

2024年5月7日至5月11日，在奥地利维也纳Messe Wien会议展览中心举办了The International Conference on Learning Representations（ICLR 2024）。实验室硕士生段士童同学作为第一作者的论文《DENEVIL: Towards Deciphering and Navigating the Ethical Values of Large Language Models》被本届ICLR 2024录用，并参加了此次会议。

海报展示现场

本工作提出了一个可以动态评估大语言模型价值观的评估框架DeNEVIL。DeNEVIL通过迭代式的生成，诱导大语言模型生成违反特定价值观的提示。基于道德基础理论（Moral Foundation Theory），论文利用DeNEVIL算法构建了Moral Prompt价值观评估数据集，然后测试了27个主流的大语言模型，发现了语言模型与人类价值观的不一致性。而后探索了基于上下文对齐的方式，尝试对大语言模型进行了对齐。

模型图例

ICLR 2024参会记录

评论 0

近期热门动态

下一篇