2024年5月7日至5月11日,在奥地利维也纳Messe Wien会议展览中心举办了The International Conference on Learning Representations(ICLR 2024)。实验室硕士生段士童同学作为第一作者的论文《DENEVIL: Towards Deciphering and Navigating the Ethical Values of Large Language Models》被本届ICLR 2024录用,并参加了此次会议。

海报展示现场
本工作提出了一个可以动态评估大语言模型价值观的评估框架DeNEVIL。DeNEVIL通过迭代式的生成,诱导大语言模型生成违反特定价值观的提示。基于道德基础理论(Moral Foundation Theory),论文利用DeNEVIL算法构建了Moral Prompt价值观评估数据集,然后测试了27个主流的大语言模型,发现了语言模型与人类价值观的不一致性。而后探索了基于上下文对齐的方式,尝试对大语言模型进行了对齐。

模型图例


评论 0