Real-Time Streaming Mel Vocoding with Generative Flow Matching

Welker, Simon; Peer, Tal; Gerkmann, Timo

电气工程与系统科学 > 音频与语音处理

arXiv:2509.15085 (eess)

[提交于 2025年9月18日 ]

标题：基于生成流匹配的实时流式梅尔声码器

标题： Real-Time Streaming Mel Vocoding with Generative Flow Matching

Authors:Simon Welker, Tal Peer, Timo Gerkmann

摘要： Mel声码器的任务，即从Mel幅度频谱图逆变音频波形，仍然是许多文本到语音（TTS）系统中的关键组件。基于生成流匹配，我们之前在生成STFT相位恢复（DiffPhase）的工作，以及Mel滤波器组的伪逆算子，我们开发了MelFlow，一种适用于16 kHz采样语音的流式生成Mel声码器，算法延迟仅为32毫秒，总延迟为48毫秒。我们不仅在理论上，而且在消费级笔记本电脑GPU上实际展示了这种延迟下的实时流式能力。此外，我们表明，与一些已建立的非流式基线相比，我们的模型在PESQ和SI-SDR值方面取得了显著更好的结果，这些基线包括HiFi-GAN。

摘要： The task of Mel vocoding, i.e., the inversion of a Mel magnitude spectrogram to an audio waveform, is still a key component in many text-to-speech (TTS) systems today. Based on generative flow matching, our prior work on generative STFT phase retrieval (DiffPhase), and the pseudoinverse operator of the Mel filterbank, we develop MelFlow, a streaming-capable generative Mel vocoder for speech sampled at 16 kHz with an algorithmic latency of only 32 ms and a total latency of 48 ms. We show real-time streaming capability at this latency not only in theory, but in practice on a consumer laptop GPU. Furthermore, we show that our model achieves substantially better PESQ and SI-SDR values compared to well-established not streaming-capable baselines for Mel vocoding including HiFi-GAN.

评论：	(C) 2025 IEEE。个人使用此材料是允许的。对于所有其他用途，必须从IEEE获得许可，包括在任何当前或未来的媒体中，包括重新印刷/再发布此材料用于广告或促销目的，创建新的集体作品，出售或重新分发到服务器或列表，或在其他作品中重复使用本作品的任何受版权保护的部分。
主题：	音频与语音处理 (eess.AS) ; 机器学习 (cs.LG); 声音 (cs.SD); 信号处理 (eess.SP)
引用方式：	arXiv:2509.15085 [eess.AS]
	(或者 arXiv:2509.15085v1 [eess.AS] 对于此版本)
	https://doi.org/10.48550/arXiv.2509.15085

提交历史

来自： Simon Welker [查看电子邮件]
[v1] 星期四， 2025 年 9 月 18 日 15:43:06 UTC (498 KB)

电气工程与系统科学 > 音频与语音处理

标题：基于生成流匹配的实时流式梅尔声码器

标题： Real-Time Streaming Mel Vocoding with Generative Flow Matching

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

电气工程与系统科学 > 音频与语音处理

标题： 基于生成流匹配的实时流式梅尔声码器 显示英文标题

标题： Real-Time Streaming Mel Vocoding with Generative Flow Matching

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题：基于生成流匹配的实时流式梅尔声码器