计算机科学 > 机器学习
[提交于 2023年9月1日
]
标题: 为什么通用对抗攻击在大型语言模型上有效? :几何学可能是答案
标题: Why do universal adversarial attacks work on large language models?: Geometry might be the answer
摘要: 基于Transformer的大语言模型具有涌现能力,在社会中变得越来越普遍。 然而,在对抗攻击的背景下,理解并解释其内部工作机制的任务仍然 largely 未解决。 基于梯度的通用对抗攻击已被证明对大语言模型非常有效,并且由于其输入无关的特性,可能具有潜在危险性。 这项工作提出了一个新颖的几何视角,用于解释大语言模型上的通用对抗攻击。 通过攻击117M参数的GPT-2模型,我们找到了证据,表明通用对抗触发器可能是仅近似其对抗训练区域中语义信息的嵌入向量。 这一假设得到了包含降维和隐藏表示相似性测量的白盒模型分析的支持。 我们认为,这种对驱动通用攻击的基本机制的新几何视角,可以帮助我们更深入地了解大语言模型的内部工作机制和失败模式,从而实现对其的缓解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.