计算机科学 > 计算机与社会
[提交于 2025年10月11日
]
标题: 伦理引擎:一种可访问的大语言模型心理测量评估的模块化流程
标题: The Ethics Engine: A Modular Pipeline for Accessible Psychometric Assessment of Large Language Models
摘要: 随着大型语言模型在人类交流和决策中发挥越来越重要的中介作用,理解它们的价值表达对于跨学科研究变得至关重要。 这项工作介绍了伦理引擎,一个模块化的Python流程,它将对语言模型的心理测量评估从技术复杂的任务转变为易于使用的研究工具。 该流程展示了精心设计的基础设施如何扩大AI研究的参与度,使认知科学、政治心理学、教育学和其他领域的研究者能够研究语言模型中的价值表达。 爱丁堡大学的研究人员最近采用该工具来研究权威主义,这验证了其研究价值,已处理超过10,000个AI响应,涵盖多个模型和情境。 我们认为,这类工具通过降低技术门槛而同时保持科学严谨性,从根本上改变了AI研究的格局。 随着语言模型日益成为认知基础设施,其嵌入的价值观塑造着数百万日常互动。 在没有系统测量这些价值表达的情况下,我们部署的系统其道德影响仍处于未知领域。 伦理引擎使对这些有影响力技术的知情治理成为可能,提供了必要的严格评估。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.