计算机科学 > 计算与语言
[提交于 2022年7月6日
]
标题: Branchformer:并行MLP-Attention架构以捕获语音识别和理解中的局部和全局上下文
标题: Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and Understanding
摘要: Conformer在许多语音处理任务中已被证明是有效的。 它结合了使用卷积提取局部依赖性和使用自注意机制提取全局依赖性的优点。 受此启发,我们提出了一种更灵活、可解释和可定制的编码器替代方案Branchformer,在端到端语音处理中并行分支用于建模各种范围的依赖关系。 在每个编码器层中,一个分支使用自注意机制或其变体来捕捉长距离依赖性,而另一个分支则利用带有卷积门控的MLP模块(cgMLP)来提取局部关系。 我们在多个语音识别和口语语言理解基准上进行了实验。 结果表明,我们的模型优于Transformer和cgMLP。 它还与Conformer取得的最先进结果相当或更好。 此外,我们展示了由于双分支架构而可以减少计算的各种策略,包括在单个训练模型中具有可变推理复杂性的能力。 合并分支所学习的权重表明了不同层中局部和全局依赖性的使用方式,这有助于模型设计。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.