Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2407.01529

帮助 | 高级搜索

计算机科学 > 密码学与安全

arXiv:2407.01529 (cs)
[提交于 2024年7月1日 ]

标题: 关于多语言文件的滥用与检测

标题: On the Abuse and Detection of Polyglot Files

Authors:Luke Koch, Sean Oesch, Amul Chaulagain, Jared Dixon, Matthew Dixon, Mike Huettal, Amir Sadovnik, Cory Watson, Brian Weber, Jacob Hartman, Richard Patulski
摘要: 多语言文件是一种同时符合两种或多种格式要求的文件。 对于依赖特定格式检测器/签名来路由文件的恶意软件检测系统以及文件上传和清理工具来说,多语言文件构成了问题。 在这项工作中,我们发现现有的文件格式和嵌入文件检测工具,即使那些专门为多语言文件开发的工具,在实际环境中也未能可靠地检测到多语言文件,使组织面临攻击风险。 为了解决这个问题,我们研究了恶意行为者在实际环境中使用多语言文件的情况,发现了$30$个多语言样本和$15$个利用多语言文件的攻击链。 在本报告中,我们强调了两个知名的高级持续威胁(APT)组织,它们的网络攻击链依赖于多语言文件来绕过检测机制。 利用我们在野外对多语言文件使用情况的调查知识——这是第一次此类调查——我们基于对手技术创建了一个新的数据集。 然后,我们使用这个数据集训练了一种机器学习检测解决方案 PolyConv。 PolyConv 的多语言文件检测的精确率-召回率曲线下的面积得分达到$0.999$,F1 得分为$99.20$%,文件格式识别得分为$99.47$%,显著优于所有其他测试工具。 我们还开发了一种内容清除与重建工具 ImSan,该工具成功清除了测试中$100$%的图像型多语言文件,这是通过调查发现的最常见的类型。 我们的工作为防御者提供了具体的工具和建议,以更好地防御多语言文件攻击,同时也为未来的研究指明了方向,以制定更健壮的文件规范和清除方法。
摘要: A polyglot is a file that is valid in two or more formats. Polyglot files pose a problem for malware detection systems that route files to format-specific detectors/signatures, as well as file upload and sanitization tools. In this work we found that existing file-format and embedded-file detection tools, even those developed specifically for polyglot files, fail to reliably detect polyglot files used in the wild, leaving organizations vulnerable to attack. To address this issue, we studied the use of polyglot files by malicious actors in the wild, finding $30$ polyglot samples and $15$ attack chains that leveraged polyglot files. In this report, we highlight two well-known APTs whose cyber attack chains relied on polyglot files to bypass detection mechanisms. Using knowledge from our survey of polyglot usage in the wild -- the first of its kind -- we created a novel data set based on adversary techniques. We then trained a machine learning detection solution, PolyConv, using this data set. PolyConv achieves a precision-recall area-under-curve score of $0.999$ with an F1 score of $99.20$% for polyglot detection and $99.47$% for file-format identification, significantly outperforming all other tools tested. We developed a content disarmament and reconstruction tool, ImSan, that successfully sanitized $100$% of the tested image-based polyglots, which were the most common type found via the survey. Our work provides concrete tools and suggestions to enable defenders to better defend themselves against polyglot files, as well as directions for future work to create more robust file specifications and methods of disarmament.
评论: 18页,11幅图
主题: 密码学与安全 (cs.CR) ; 机器学习 (cs.LG)
引用方式: arXiv:2407.01529 [cs.CR]
  (或者 arXiv:2407.01529v1 [cs.CR] 对于此版本)
  https://doi.org/10.48550/arXiv.2407.01529
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Luke Koch [查看电子邮件]
[v1] 星期一, 2024 年 7 月 1 日 17:59:54 UTC (9,651 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.CR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-07
切换浏览方式为:
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号