Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models

Dugan, Liam; Wadhawan, Anshul; Spence, Kyle; Callison-Burch, Chris; McGuire, Morgan; Zordan, Victor

计算机科学 > 计算与语言

arXiv:2306.01201 (cs)

[提交于 2023年6月1日 ]

标题：何时发言的学习：离线模型同时语音到语音翻译中的延迟与质量权衡

标题： Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models

Authors:Liam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan McGuire, Victor Zordan

摘要：语音到语音翻译（S2ST）的近期工作主要集中在离线设置上，其中完整的输入语句在生成任何输出之前即可获得。然而，在许多现实场景中，这并不合理。在对延迟敏感的应用程序中，与其等待整个语句，不如在输入信息可用时立即提供翻译。在这项工作中，我们介绍了一个面向实际应用场景的同步S2ST系统。我们的系统支持从57种语言翻译成英语，并具有可调参数以动态调整输出的延迟——包括四种用于确定何时输出序列的策略。我们展示了这些策略在延迟仅略有增加的情况下实现了与Greedy（等待-$k$）基线相当的离线水平准确性。我们开源了我们的评估代码和交互式测试脚本，以促进未来同步S2ST研究和应用开发。

摘要： Recent work in speech-to-speech translation (S2ST) has focused primarily on offline settings, where the full input utterance is available before any output is given. This, however, is not reasonable in many real-world scenarios. In latency-sensitive applications, rather than waiting for the full utterance, translations should be spoken as soon as the information in the input is present. In this work, we introduce a system for simultaneous S2ST targeting real-world use cases. Our system supports translation from 57 languages to English with tunable parameters for dynamically adjusting the latency of the output -- including four policies for determining when to speak an output sequence. We show that these policies achieve offline-level accuracy with minimal increases in latency over a Greedy (wait-$k$) baseline. We open-source our evaluation code and interactive test script to aid future SimulS2ST research and application development.

评论：	将于2023年INTERSPEECH会议上发表
主题：	计算与语言 (cs.CL) ; 机器学习 (cs.LG); 声音 (cs.SD); 音频与语音处理 (eess.AS)
引用方式：	arXiv:2306.01201 [cs.CL]
	(或者 arXiv:2306.01201v1 [cs.CL] 对于此版本)
	https://doi.org/10.48550/arXiv.2306.01201

提交历史

来自： Liam Dugan [查看电子邮件]
[v1] 星期四， 2023 年 6 月 1 日 23:29:23 UTC (259 KB)

计算机科学 > 计算与语言

标题：何时发言的学习：离线模型同时语音到语音翻译中的延迟与质量权衡

标题： Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

计算机科学 > 计算与语言

标题： 何时发言的学习：离线模型同时语音到语音翻译中的延迟与质量权衡 显示英文标题

标题： Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题：何时发言的学习：离线模型同时语音到语音翻译中的延迟与质量权衡