Compute Cost Amortized Transformer for Streaming ASR

Xie, Yi; Macoskey, Jonathan; Radfar, Martin; Chang, Feng-Ju; King, Brian; Rastrow, Ariya; Mouchtaris, Athanasios; Strimel, Grant P.

计算机科学 > 计算与语言

arXiv:2207.02393 (cs)

[提交于 2022年7月5日 ]

标题：计算成本分摊变换器用于流式自动语音识别

标题： Compute Cost Amortized Transformer for Streaming ASR

Authors:Yi Xie, Jonathan Macoskey, Martin Radfar, Feng-Ju Chang, Brian King, Ariya Rastrow, Athanasios Mouchtaris, Grant P. Strimel

摘要：我们提出了一种流式传输、基于Transformer的端到端自动语音识别（ASR）架构，该架构通过计算成本分摊实现了高效的神经推理。我们的架构在推理时动态创建稀疏计算路径，从而在整个解码过程中选择性地使用计算资源，实现了计算量的显著减少，同时对准确性影响最小。该完全可微的架构通过一个配套的轻量级仲裁机制进行端到端训练，在帧级别操作以对每个输入做出动态决策，同时使用可调损失函数来将整体计算水平与预测性能进行正则化。我们报告了在LibriSpeech数据上进行的计算分摊Transformer-Transducer（T-T）模型实验的实证结果。我们最佳的模型可以在仅增加3%相对词错误率（WER）的情况下实现60%的计算成本降低。

摘要： We present a streaming, Transformer-based end-to-end automatic speech recognition (ASR) architecture which achieves efficient neural inference through compute cost amortization. Our architecture creates sparse computation pathways dynamically at inference time, resulting in selective use of compute resources throughout decoding, enabling significant reductions in compute with minimal impact on accuracy. The fully differentiable architecture is trained end-to-end with an accompanying lightweight arbitrator mechanism operating at the frame-level to make dynamic decisions on each input while a tunable loss function is used to regularize the overall level of compute against predictive performance. We report empirical results from experiments using the compute amortized Transformer-Transducer (T-T) model conducted on LibriSpeech data. Our best model can achieve a 60% compute cost reduction with only a 3% relative word error rate (WER) increase.

主题：	计算与语言 (cs.CL) ; 声音 (cs.SD); 音频与语音处理 (eess.AS)
引用方式：	arXiv:2207.02393 [cs.CL]
	(或者 arXiv:2207.02393v1 [cs.CL] 对于此版本)
	https://doi.org/10.48550/arXiv.2207.02393

提交历史

来自： Yi Xie [查看电子邮件]
[v1] 星期二， 2022 年 7 月 5 日 03:06:53 UTC (1,178 KB)

计算机科学 > 计算与语言

标题：计算成本分摊变换器用于流式自动语音识别

标题： Compute Cost Amortized Transformer for Streaming ASR

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

计算机科学 > 计算与语言

标题： 计算成本分摊变换器用于流式自动语音识别 显示英文标题

标题： Compute Cost Amortized Transformer for Streaming ASR

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题：计算成本分摊变换器用于流式自动语音识别