计算机科学 > 计算与语言
[提交于 2025年9月12日
]
标题: 打开黑箱:通过语义共振架构实现可解释的大型语言模型
标题: Opening the Black Box: Interpretable LLMs via Semantic Resonance Architecture
摘要: 大型语言模型(LLMs)表现出色,但仍然难以解释。 混合专家(MoE)模型通过稀疏激活提高效率,但通常依赖于不透明的、学习到的门控函数。 虽然基于相似性的路由(余弦路由器)已被用于训练稳定性,但其在固有可解释性方面的潜力尚未被充分挖掘。 我们引入了语义共振架构(SRA),这是一种旨在确保路由决策本身可解释的MoE方法。 SRA用语义共振室(CSR)模块取代了学习到的门控,该模块根据与可训练语义锚点的余弦相似性进行标记路由。 我们还引入了一种新的分散损失,鼓励锚点之间的正交性以强制多样化的专业化。 在WikiText-103上的实验表明,SRA在匹配的活跃参数约束(29.0M)下实现了验证困惑度13.41,优于密集基线(14.13)和标准MoE基线(13.53)。 至关重要的是,SRA表现出优越的专家利用率(1.0%的死亡专家 vs 标准MoE中的14.8%),并发展出独特且语义一致的专业化模式,这与标准MoEs中观察到的噪声专业化不同。 这项工作确立了语义路由作为一种稳健的方法论,用于构建更透明和可控的语言模型。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.