计算机科学 > 密码学与安全
[提交于 2025年9月16日
(此版本)
, 最新版本 2025年10月1日 (v2)
]
标题: 一种针对提示注入攻击的多智能体LLM防御流程
标题: A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks
摘要: 提示注入攻击是大型语言模型(LLM)部署中的主要漏洞,其中嵌入在用户输入中的恶意指令可以覆盖系统提示并引发意外行为。本文提出了一种新颖的多智能体防御框架,该框架采用协调管道中的专用LLM代理来实时检测和中和提示注入攻击。我们使用两种不同的架构对我们的方法进行了评估:一种是顺序的智能体链式管道,另一种是基于分层协调器的系统。我们在55种独特的提示注入攻击上进行了全面评估,这些攻击分为8个类别,在两个LLM平台(ChatGLM和Llama2)上总共400个攻击实例,结果表明安全性能显著提高。在没有防御机制的情况下,基线攻击成功率(ASR)达到30%对于ChatGLM和20%对于Llama2。我们的多智能体管道实现了100%的缓解,将ASR降低到所有测试场景中的0%。该框架在多个攻击类别中表现出鲁棒性,包括直接覆盖、代码执行尝试、数据泄露和混淆技术,同时保持了对合法查询的系统功能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.