计算机科学 > 密码学与安全
[提交于 2025年8月12日
]
标题: AI能保守秘密吗? 上下文完整性验证:一种适用于大语言模型的可证明安全架构
标题: Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs
摘要: 大型语言模型(LLMs)仍然极易受到提示注入和相关越狱攻击的威胁;启发式防护措施(规则、过滤器、LLM法官)经常被绕过。 我们提出了上下文完整性验证(CIV),这是一种推理时的安全架构,它将密码学签名的来源标签附加到每个标记,并通过预softmax硬注意力掩码(可选的FFN/残差门控)在变压器内部强制执行源信任格栅。 CIV为冻结模型提供了确定性的、逐标记的非干扰保证:低信任度的标记不能影响高信任度的表示。 在基于最近提示注入向量分类法(Elite-Attack + SoK-246)的基准测试中,CIV在指定威胁模型下达到了0%的攻击成功率,同时保持了93.1%的逐标记相似度,并且在良性任务上模型困惑度没有下降;我们注意到由于数据路径未优化而产生的延迟开销。 由于CIV是一个轻量级补丁——不需要微调——我们展示了对Llama-3-8B和Mistral-7B的即插即用保护。 我们发布了一个参考实现、一个自动化认证工具包和Elite-Attack语料库,以支持可重复的研究。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.