计算机科学 > 密码学与安全
[提交于 2025年3月10日
(v1)
,最后修订 2025年8月6日 (此版本, v3)]
标题: 多模态大语言模型上的越狱概率建模:从量化到应用
标题: Probabilistic Modeling of Jailbreak on Multimodal LLMs: From Quantification to Application
摘要: 最近,多模态大语言模型(MLLMs)展示了它们在理解多模态内容方面的优越能力。 然而,它们仍然容易受到越狱攻击,这些攻击利用其安全对齐中的弱点来生成有害响应。 先前的研究根据响应是否包含恶意内容,将越狱分为成功或失败。 然而,鉴于MLLM响应的随机性,这种将输入的越狱能力二元分类的方法是不合适的。 基于这一观点,我们引入了越狱概率来量化输入的越狱潜力,这表示当使用该输入提示MLLM时生成恶意响应的可能性。 我们通过多次查询MLLM来近似这个概率。 在使用越狱概率预测网络(JPPN)对输入隐藏状态与其对应的越狱概率之间的关系进行建模后,我们使用连续的越狱概率进行优化。 具体而言,我们提出了基于越狱概率的攻击(JPA),该攻击在输入图像上优化对抗扰动以最大化越狱概率,并通过包括单调文本重述进一步增强为多模态JPA(MJPA)。 为了应对攻击,我们还提出了基于越狱概率的微调(JPF),通过MLLM参数更新来最小化越狱概率。 大量实验表明,(1) (M)JPA在白盒和黑盒设置下对广泛模型的攻击均取得了显著改进。 (2) JPF最多可减少60%的越狱。 上述结果都证明了引入越狱概率的重要性,以便在输入的越狱能力之间做出细致的区分。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.