计算机科学 > 人工智能
[提交于 2025年8月21日
(此版本)
, 最新版本 2025年9月2日 (v5)
]
标题: 响应和提示评估以防止与聊天机器人的拟社会关系
标题: Response and Prompt Evaluation to Prevent Parasocial Relationships with Chatbots
摘要: 与AI代理建立的准社会关系对人类福祉有严重的影响,有时甚至会导致悲剧性后果。 然而阻止这种动态过程具有挑战性:准社会线索通常在私人对话中逐渐出现,并非所有形式的情感参与都是有害的。 我们通过引入一个简单的响应评估框架来解决这一挑战,该框架通过重新利用最先进的语言模型,能够实时评估正在进行的对话中的准社会线索。 为了测试这种方法的可行性,我们构建了一个包含三十个对话的小型合成数据集,涵盖了准社会、阿谀奉承和中性对话。 通过五阶段测试的迭代评估,在宽容的一致性规则下成功识别了所有准社会对话,同时避免了误报,检测通常在前几次交流中发生。 这些发现提供了初步证据,表明评估代理可以为预防准社会关系提供可行的解决方案。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.