计算机科学 > 密码学与安全
[提交于 2025年8月6日
]
标题: 隔离触发器:检测和消除逃避自适应后门
标题: Isolate Trigger: Detecting and Eradicating Evade-Adaptive Backdoors
摘要: 所有当前针对深度学习模型的后门攻击检测都属于非必要特征(NEF)类别,这些检测方法专注于对抗简单且高效的垂直类别后门——触发器小、少且不与源特征重叠。 逃避自适应后门(EAB)攻击已经避开了NEF检测并提高了训练效率。 我们引入了一个精确、高效且通用的检测和防御框架,称为隔离触发器(IsTr)。 IsTr旨在通过打破源特征的障碍来找到隐藏的触发器。 因此,它研究了后门触发的本质,并使用步骤和差分中间切片作为组件来更新过去的距离和梯度理论。 IsTr在模型中也起到积极作用,无论是否存在后门。 例如,准确地发现并修复自动驾驶中由于故意或无意训练导致的错误识别。 在各种任务上的广泛实验,包括MNIST、人脸识别和交通标志识别,证实了IsTr的高效率、通用性和精确性。 我们对IsTr在一系列六种EAB攻击中的有效性进行了严格评估,包括Badnets、Sin-Wave、多触发器、SSBAs、CASSOCK、HCB。 这些对策都没有被避开,即使攻击组合在一起且触发器与源特征重叠。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.