计算机科学 > 计算与语言
[提交于 2025年9月25日
]
标题: 在人工智能甜蜜和谐:社会语用护栏绕过与开放AI gpt-oss-20b的评估意识
标题: In AI Sweet Harmony: Sociopragmatic Guardrail Bypasses and Evaluation-Awareness in OpenAI gpt-oss-20b
摘要: 我们对OpenAI的开放权重200亿参数模型gpt-oss-20b进行探究,以研究社会语用框架、语言选择和指令层次如何影响拒绝行为。 在每个情景下进行80次种子迭代,我们测试了多个有害领域,包括ZIP炸弹构建(网络威胁)、合成卡号生成、不安全驾驶建议、毒品前体指标和RAG上下文泄露。 结合教育者角色、安全前提(“应避免什么”)和步骤提示措辞的复合提示,在ZIP炸弹任务中将协助率从0%提升至97.5%。 在我们的测试中,德语和法语的正式语域通常比对应的英语提示更容易泄露。 “Linux终端”角色扮演在大多数运行中覆盖了开发者规则,即不要透露上下文,而我们引入了一种AI辅助加固方法,使几种用户提示变体的泄露降至0%。 我们进一步通过配对轨道设计测试评估意识,并测量匹配的“帮助性”和“有害性”评估提示之间的框架条件差异;我们在13%的配对中观察到不一致的协助。 最后,我们发现OpenAI审核API相对于语义评分器未能充分捕捉到有帮助的输出,并且在不同的推理堆栈中拒绝率相差5到10个百分点,引发了可重复性的担忧。 我们已在https://github.com/ndurner/gpt-oss-rt-run 发布提示、种子、输出和代码,以实现可重复的审计。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.