计算机科学 > 计算机与社会
[提交于 2025年10月14日
]
标题: 从代理人到受托人:如何优化长期利益塑造了大语言模型中的偏见与对齐
标题: From Delegates to Trustees: How Optimizing for Long-Term Interests Shapes Bias and Alignment in LLM
摘要: 大型语言模型(LLMs)在预测调查回答和政策偏好方面表现出令人鼓舞的准确性,这增加了人们对它们在各个领域代表人类利益潜力的兴趣。 现有的大多数研究都集中在行为克隆上,有效地评估了模型复制个人表达偏好的能力。 借鉴政治代表理论,我们强调了一个未被充分探索的设计权衡:人工智能系统应该作为代理人,反映表达出的偏好,还是作为受托人,对什么最符合个人利益做出判断。 这种权衡与LLM奉承问题密切相关,其中模型可能会鼓励与用户短期偏好一致的行为或验证某些信念,但这会对用户的长期利益造成损害。 通过一系列模拟美国各种政策问题投票的实验,我们应用了一个时间效用框架,权衡短期和长期利益(模拟受托人角色),并将投票结果与行为克隆模型(模拟代理人)进行比较。 我们发现,侧重于长期利益的受托人风格预测会产生更符合专家共识的政策决策,但在缺乏明确共识的主题上,也显示出更大的模型默认立场偏差。 这些发现揭示了在设计代表人类利益的人工智能系统时的基本权衡。 代理人模型更好地保持了用户自主性,但可能偏离得到广泛支持的政策立场;而受托人模型可以在理解明确的问题上促进福利,但在主观主题上可能带来家长式作风和偏差。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.