计算机科学 > 密码学与安全
[提交于 2025年9月30日
]
标题: SecureBERT 2.0:网络安全智能的先进语言模型
标题: SecureBERT 2.0: Advanced Language Model for Cybersecurity Intelligence
摘要: 有效分析网络安全和威胁情报数据需要能够解释专业术语、复杂文档结构以及自然语言和源代码之间相互依赖关系的语言模型。 仅编码器的变压器架构提供了高效且稳健的表示,支持语义搜索、技术实体提取和语义分析等关键任务,这些任务对于自动化威胁检测、事件分类和漏洞评估至关重要。 然而,通用语言模型通常缺乏实现高精度所需的领域特定适应性。 我们提出了SecureBERT 2.0,这是一个专为网络安全应用而构建的增强型仅编码器语言模型。 利用ModernBERT架构,SecureBERT 2.0引入了改进的长上下文建模和分层编码,使对扩展和异构文档(包括威胁报告和源代码工件)的有效处理成为可能。 在比其前身大十三倍以上的领域特定语料库上预训练,该语料库包含来自各种现实世界来源的超过130亿个文本标记和5300万个代码标记,SecureBERT 2.0在多个网络安全基准测试中达到了最先进的性能。 实验结果表明,在威胁情报的语义搜索、语义分析、网络安全特定的命名实体识别以及网络安全领域内的代码自动漏洞检测方面有显著提升。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.