计算机科学 > 密码学与安全
[提交于 2025年3月10日
(此版本)
, 最新版本 2025年8月6日 (v3)
]
标题: 利用越狱概率攻击和保护多模态大语言模型
标题: Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs
摘要: 最近,多模态大语言模型(MLLMs)展示了其在理解多模态内容方面的优越能力。 然而,它们仍然容易受到越狱攻击,这些攻击利用其安全对齐中的弱点来生成有害响应。 以前的研究根据响应是否包含恶意内容,将越狱分类为成功或失败。 然而,鉴于MLLM响应的随机性,这种将输入的越狱能力二元分类的方法是不合适的。 基于这一观点,我们引入了越狱概率来量化输入的越狱潜力,这表示当使用该输入提示MLLM时生成恶意响应的可能性。 我们通过多次查询MLLM来近似这个概率。 在使用越狱概率预测网络(JPPN)建模输入隐藏状态与其对应的越狱概率之间的关系后,我们使用连续的越狱概率进行优化。 具体而言,我们提出了基于越狱概率的攻击(JPA),该攻击在输入上优化对抗性扰动以最大化越狱概率。 为了应对攻击,我们还提出了两种防御方法:基于越狱概率的微调(JPF)和基于越狱概率的防御噪声(JPDN),分别在MLLM参数和输入空间中最小化越狱概率。 大量实验表明,(1) 与之前的方法相比,JPA在白盒和黑盒设置下均取得了改进(最高提升28.38%),且扰动范围较小,迭代次数较少。 (2) JPF和JPDN最多可减少超过60%的越狱行为。 上述两个结果都证明了引入越狱概率的重要性,以在输入的越狱能力之间做出细微的区分。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.