计算机科学 > 计算与语言
[提交于 2025年9月18日
]
标题: 从轮流对话到同步对话:全双工口语语言模型的综述
标题: From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models
摘要: 真全双工(TFD)语音通信——实现同时聆听和说话,具有自然的轮流交谈、重叠语音和中断——标志着向类人AI交互的一个关键里程碑。 本综述全面回顾了大语言模型时代中的全双工口语语言模型(FD-SLMs)。 我们建立了一个分类体系,区分工程同步(模块化架构)与学习同步(端到端架构),并将碎片化的评估方法统一到一个涵盖时间动态、行为仲裁、语义连贯性和声学性能的框架中。 通过主流FD-SLMs的比较分析,我们识别出基本挑战:同步数据稀缺、架构分歧和评估差距,为推进人机通信提供了路线图。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.