计算机科学 > 计算与语言
[提交于 2025年10月18日
]
标题: MoReBench:评估语言模型中的程序化和多元道德推理,超越结果
标题: MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
摘要: 随着人工智能系统的进步,我们越来越依赖它们与我们一同做出决策或替我们做出决策。 为了确保这些决策符合人类价值观,我们必须不仅了解它们做出了哪些决策,还要了解它们是如何做出这些决策的。 提供最终回答和(部分透明的)中间思维过程的语言模型,为研究人工智能的程序性推理提供了及时的机会。 与数学和代码问题通常有客观正确答案不同,道德困境是进行以过程为导向评估的理想测试平台,因为它们允许多种合理的结论。 为此,我们提出了MoReBench:1000个道德场景,每个场景都配有一组专家认为在考虑这些场景时应包含(或避免)的关键评价标准。 MoReBench包含超过23000条标准,包括识别道德考量、权衡利弊以及给出可操作的建议,以涵盖AI向人类提供建议进行道德决策以及自主做出道德决策的情况。 另外,我们整理了MoReBench-Theory:150个例子,用以测试人工智能是否能在规范伦理的五个主要框架下进行推理。 我们的结果表明,数学、代码和科学推理任务上的扩展定律和现有基准无法预测模型进行道德推理的能力。 模型还表现出对特定道德框架(如边沁主义行为功利主义和康德义务论)的偏见,这可能是流行训练范式的副作用。 总的来说,这些基准推动了以过程为导向的推理评估,使人工智能更加安全和透明。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.