Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.15748v1

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2508.15748v1 (cs)
[提交于 2025年8月21日 (此版本) , 最新版本 2025年9月2日 (v5) ]

标题: 响应和提示评估以防止与聊天机器人的拟社会关系

标题: Response and Prompt Evaluation to Prevent Parasocial Relationships with Chatbots

Authors:Emma Rath, Stuart Armstrong, Rebecca Gorman
摘要: 与AI代理建立的准社会关系对人类福祉有严重的影响,有时甚至会导致悲剧性后果。 然而阻止这种动态过程具有挑战性:准社会线索通常在私人对话中逐渐出现,并非所有形式的情感参与都是有害的。 我们通过引入一个简单的响应评估框架来解决这一挑战,该框架通过重新利用最先进的语言模型,能够实时评估正在进行的对话中的准社会线索。 为了测试这种方法的可行性,我们构建了一个包含三十个对话的小型合成数据集,涵盖了准社会、阿谀奉承和中性对话。 通过五阶段测试的迭代评估,在宽容的一致性规则下成功识别了所有准社会对话,同时避免了误报,检测通常在前几次交流中发生。 这些发现提供了初步证据,表明评估代理可以为预防准社会关系提供可行的解决方案。
摘要: The development of parasocial relationships with AI agents has severe, and in some cases, tragic effects for human well-being. Yet preventing such dynamics is challenging: parasocial cues often emerge gradually in private conversations, and not all forms of emotional engagement are inherently harmful. We address this challenge by introducing a simple response evaluation framework, created by repurposing a state-of-the-art language model, that evaluates ongoing conversations for parasocial cues in real time. To test the feasibility of this approach, we constructed a small synthetic dataset of thirty dialogues spanning parasocial, sycophantic, and neutral conversations. Iterative evaluation with five stage testing successfully identified all parasocial conversations while avoiding false positives under a tolerant unanimity rule, with detection typically occurring within the first few exchanges. These findings provide preliminary evidence that evaluation agents can provide a viable solution for the prevention of parasocial relations.
主题: 人工智能 (cs.AI)
引用方式: arXiv:2508.15748 [cs.AI]
  (或者 arXiv:2508.15748v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.15748
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Stuart Armstrong [查看电子邮件]
[v1] 星期四, 2025 年 8 月 21 日 17:43:24 UTC (239 KB)
[v2] 星期一, 2025 年 8 月 25 日 17:36:54 UTC (244 KB)
[v3] 星期二, 2025 年 8 月 26 日 17:15:20 UTC (255 KB)
[v4] 星期三, 2025 年 8 月 27 日 12:13:09 UTC (255 KB)
[v5] 星期二, 2025 年 9 月 2 日 16:30:18 UTC (257 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号