Multi-Turn Jailbreaks Are Simpler Than They Seem

Yang, Xiaoxue; Lee, Jaeha; Dick, Anna-Katharina; Timm, Jasper; Xie, Fei; Cruz, Diogo

计算机科学 > 机器学习

arXiv:2508.07646 (cs)

[提交于 2025年8月11日 ]

标题：多轮越狱比看起来更容易

标题： Multi-Turn Jailbreaks Are Simpler Than They Seem

Authors:Xiaoxue Yang, Jaeha Lee, Anna-Katharina Dick, Jasper Timm, Fei Xie, Diogo Cruz

摘要：尽管针对大型语言模型(LLMs)的单轮越狱攻击的防御措施已显著改进，但多轮越狱攻击仍是一个持续的漏洞，通常在针对单轮保护优化的模型上成功率达到70%以上。本研究对最先进的模型包括GPT-4、Claude和Gemini变体进行了自动化多轮越狱攻击的经验分析，使用了StrongREJECT基准。我们的发现挑战了多轮攻击的复杂性认知：当考虑到攻击者能够从模型如何拒绝有害请求中学习时，多轮越狱方法大约等同于多次重新采样单轮攻击。此外，相似模型之间的攻击成功率存在相关性，使得越狱新发布模型变得更加容易。此外，对于推理模型，我们发现令人惊讶的是，更高的推理努力往往会导致更高的攻击成功率。我们的结果对人工智能安全评估和越狱抗性系统的设计具有重要影响。我们在https://github.com/diogo-cruz/multi_turn_simpler发布源代码。

摘要： While defenses against single-turn jailbreak attacks on Large Language Models (LLMs) have improved significantly, multi-turn jailbreaks remain a persistent vulnerability, often achieving success rates exceeding 70% against models optimized for single-turn protection. This work presents an empirical analysis of automated multi-turn jailbreak attacks across state-of-the-art models including GPT-4, Claude, and Gemini variants, using the StrongREJECT benchmark. Our findings challenge the perceived sophistication of multi-turn attacks: when accounting for the attacker's ability to learn from how models refuse harmful requests, multi-turn jailbreaking approaches are approximately equivalent to simply resampling single-turn attacks multiple times. Moreover, attack success is correlated among similar models, making it easier to jailbreak newly released ones. Additionally, for reasoning models, we find surprisingly that higher reasoning effort often leads to higher attack success rates. Our results have important implications for AI safety evaluation and the design of jailbreak-resistant systems. We release the source code at https://github.com/diogo-cruz/multi_turn_simpler

评论：	25页，15图。被COLM 2025 SoLaR研讨会接受
主题：	机器学习 (cs.LG)
引用方式：	arXiv:2508.07646 [cs.LG]
	(或者 arXiv:2508.07646v1 [cs.LG] 对于此版本)
	https://doi.org/10.48550/arXiv.2508.07646

提交历史

来自： Diogo Cruz [查看电子邮件]
[v1] 星期一， 2025 年 8 月 11 日 05:57:41 UTC (1,399 KB)

计算机科学 > 机器学习

标题：多轮越狱比看起来更容易

标题： Multi-Turn Jailbreaks Are Simpler Than They Seem

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

计算机科学 > 机器学习

标题： 多轮越狱比看起来更容易 显示英文标题

标题： Multi-Turn Jailbreaks Are Simpler Than They Seem

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题：多轮越狱比看起来更容易