计算机科学 > 密码学与安全
[提交于 2025年9月22日
]
标题: 通过语义相关的嵌套场景针对有毒知识进行破解大型语言模型
标题: Jailbreaking LLMs via Semantically Relevant Nested Scenarios with Targeted Toxic Knowledge
摘要: 大型语言模型(LLMs)在各种任务中展示了显著的能力。 然而,它们仍然容易受到越狱攻击,导致产生有害的响应。 嵌套场景策略已被越来越多的方法采用,显示出巨大的潜力。 然而,由于这些方法明显的恶意意图,它们很容易被检测到。 在这项工作中,我们首次发现并系统验证了LLMs的对齐防御对嵌套场景不敏感,其中这些场景与查询高度语义相关,并包含有针对性的有毒知识。 这是一个关键但尚未充分探索的方向。 基于此,我们提出了RTS-Attack(具有目标有毒知识的语义相关嵌套场景),这是一种自适应和自动化的框架,用于检查LLMs的对齐情况。 通过构建与查询高度相关的场景并整合有针对性的有毒知识,RTS-Attack绕过了LLMs的对齐防御。 此外,RTS-Attack生成的越狱提示不包含有害查询,从而实现了出色的隐蔽性。 大量实验表明,与基线相比,RTS-Attack在效率和通用性方面表现出色,适用于多种先进的LLMs,包括GPT-4o、Llama3-70b和Gemini-pro。 我们的完整代码可在补充材料中获得。 警告:本文可能包含潜在有害内容。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.