声音

2025年08月的作者和标题

总共 291 条目 : 1-50 51-100 101-150 151-200 ... 251-291

显示最多 50 每页条目：较少 | 更多 | 所有

[1] arXiv:2508.00317 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过科学挑战和开源活动推动语音质量评估的发展

标题： Advancing Speech Quality Assessment Through Scientific Challenges and Open-source Activities

Wen-Chin Huang

评论： APSIPA ASC 2025 视角论文

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[2] arXiv:2508.00733 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： AudioGen-Omni：一种用于视频同步音频、语音和歌曲生成的统一多模态扩散Transformer

标题： AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

Le Wang, Jun Wang, Chunyu Qiang, Feng Deng, Chen Zhang, Di Zhang, Kun Gai

评论： 12页，2图

主题：声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[3] arXiv:2508.01166 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：用更少听到更多：多模态检索与选择增强的对话式大语言模型语音识别

标题： Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR

Bingshen Mu, Hexin Liu, Hongfei Xue, Kun Wei, Lei Xie

主题：声音 (cs.SD)
[4] arXiv:2508.01172 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： GeHirNet：一种性别感知的分层模型用于语音病理分类

标题： GeHirNet: A Gender-Aware Hierarchical Model for Voice Pathology Classification

Fan Wu (1), Kaicheng Zhao (2), Elgar Fleisch (1 and 3), Filipe Barata (1) ((1) Centre for Digital Health Interventions, ETH Zurich, Zurich, Switzerland, (2) Institute of Mechanism Theory, Machine Dynamics and Robotics, RWTH Aachen University, Aachen, Germany, (3) Centre for Digital Health Interventions, University of St. Gallen, St. Gallen, Switzerland)

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[5] arXiv:2508.01178 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：推进音乐理解的基础模型

标题： Advancing the Foundation Model for Music Understanding

Yi Jiang, Wei Wang, Xianwen Guo, Huiyun Liu, Hanrui Wang, Youri Xu, Haoqi Gu, Zhongqian Xie, Chuanjiang Luo

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 信息检索 (cs.IR) ; 音频与语音处理 (eess.AS)
[6] arXiv:2508.01277 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：生物声学的基础模型 -- 比较综述

标题： Foundation Models for Bioacoustics -- a Comparative Review

Raphael Schwinger, Paria Vali Zadeh, Lukas Rauch, Mats Kurz, Tom Hauschild, Sam Lapp, Sven Tomforde

评论：预印本

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS) ; 定量方法 (q-bio.QM)
[7] arXiv:2508.01394 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过分数到性能：使用小节级符号记谱的高效人类可控制长歌曲生成

标题： Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation

Tongxi Wang, Yang Yu, Qing Wang, Junlang Qian

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[8] arXiv:2508.01488 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： PESTO：具有自监督转置等变目标的实时音高估计

标题： PESTO: Real-Time Pitch Estimation with Self-supervised Transposition-equivariant Objective

Alain Riou, Bernardo Torres, Ben Hayes, Stefan Lattner, Gaëtan Hadjeres, Gaël Richard, Geoffroy Peeters

期刊参考：国际音乐信息检索学会汇刊，8(1): 334-352 (2025)

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[9] arXiv:2508.01493 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于最优传输的音高估计的翻译等变自监督学习

标题： Translation-Equivariant Self-Supervised Learning for Pitch Estimation with Optimal Transport

Bernardo Torres, Alain Riou, Gaël Richard, Geoffroy Peeters

评论：扩展摘要 for 26th 国际音乐信息检索学会的最新演示会议 session

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[10] arXiv:2508.01498 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： ShrutiSense：印度古典音乐中的微音调建模与校正

标题： ShrutiSense: Microtonal Modeling and Correction in Indian Classical Music

Rajarshi Ghosh, Jayanth Athipatla

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[11] arXiv:2508.01571 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过最短路径查找的自动旋律简化

标题： Automatic Melody Reduction via Shortest Path Finding

Ziyu Wang, Yuxuan Wu, Roger B. Dannenberg, Gus Xia

评论：被ISMIR 2025接收的论文。 https://ismir2025.ismir.net/accepted-papers

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[12] arXiv:2508.01659 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：从对比到共性：用于增强多模态大语言模型中音频-文本跨模态理解的音频共性描述

标题： From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs

Yuhang Jia, Xu Zhang, Yujie Guo, Yang Chen, Shiwan Zhao

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[13] arXiv:2508.01691 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： Voxlect：一种用于建模全球方言和区域语言的语音基础模型基准

标题： Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe

Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[14] arXiv:2508.01796 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过在声码器之前显式扩展带宽来提高歌唱语音合成的频谱图真实性

标题： Enhancing Spectrogram Realism in Singing Voice Synthesis via Explicit Bandwidth Extension Prior to Vocoder

Runxuan Yang, Kai Li, Guo Chen, Xiaolin Hu

评论： 7页，8图

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[15] arXiv:2508.01897 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过庞加莱球中的分层结构学习和特征白化进行可泛化的音频深度伪造检测

标题： Generalizable Audio Deepfake Detection via Hierarchical Structure Learning and Feature Whitening in Poincaré sphere

Mingru Yang, Yanmei Gu, Qianhua He, Yanxiong Li, Peirong Zhang, Yongqiang Chen, Zhiming Wang, Huijia Zhu, Jian Liu, Weiqiang Wang

评论：已接受发表于Interspeech 2025

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[16] arXiv:2508.01960 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：非言语的发声及其挑战：情感、隐私、稀疏性和现实生活

标题： Non-Verbal Vocalisations and their Challenges: Emotion, Privacy, Sparseness, and Real Life

Anton Batliner, Shahin Amiriparian, Björn W. Schuller

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[17] arXiv:2508.02000 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过分层边界建模定位音视频深度伪造

标题： Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling

Xuanjun Chen, Shih-Peng Cheng, Jiawei Du, Lin Zhang, Xiaoxiao Miao, Chung-Che Wang, Haibin Wu, Hung-yi Lee, Jyh-Shing Roger Jang

评论：进行中

主题：声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 音频与语音处理 (eess.AS) ; 图像与视频处理 (eess.IV)
[18] arXiv:2508.02071 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过扩散的无监督多通道语音去混响

标题： Unsupervised Multi-channel Speech Dereverberation via Diffusion

Yulun Wu, Zhongweiyang Xu, Jianchong Chen, Zhong-Qiu Wang, Romit Roy Choudhury

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[19] arXiv:2508.02175 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：隐藏在噪声中：通过潜在声学模式触发器揭示音频大语言模型对齐中的后门

标题： Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers

Liang Lin, Miao Yu, Kaiwen Luo, Yibo Zhang, Lilan Peng, Dexian Wang, Xuehai Tang, Yuanhe Zhang, Xikang Yang, Zhenhong Zhou, Kun Wang, Yang Liu

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[20] arXiv:2508.02210 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： WhiSQA：使用Whisper编码器特征的非侵入式语音质量预测

标题： WhiSQA: Non-Intrusive Speech Quality Prediction Using Whisper Encoder Features

George Close, Kris Hong, Thomas Hain, Stefan Goetze

评论：被SPECOM 2025接收

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[21] arXiv:2508.02255 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： StutterCut：用于口吃分割的不确定性引导归一化切割

标题： StutterCut: Uncertainty-Guided Normalised Cut for Dysfluency Segmentation

Suhita Ghosh, Melanie Jouaiti, Jan-Ole Perschewski, Sebastian Stober

评论：被国际语音通信协会2025年会议接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[22] arXiv:2508.02354 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过语音分析检测慢阻肺：丹麦语音数据集和机器学习方法

标题： Detecting COPD Through Speech Analysis: A Dataset of Danish Speech and Machine Learning Approach

Cuno Sankey-Olsen, Rasmus Hvass Olesen, Tobias Oliver Eberhard, Andreas Triantafyllopoulos, Björn Schuller, Ilhan Aslan

主题：声音 (cs.SD) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[23] arXiv:2508.02391 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于扩散的音频超分辨率的推理时间缩放

标题： Inference-time Scaling for Diffusion-based Audio Super-resolution

Yizhu Jin, Zhen Ye, Zeyue Tian, Haohe Liu, Qiuqiang Kong, Yike Guo, Wei Xue

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[24] arXiv:2508.02448 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：绘制深度学习在语音情感识别中15年进展的图表：一项复制研究

标题： Charting 15 years of progress in deep learning for speech emotion recognition: A replication study

Andreas Triantafyllopoulos, Anton Batliner, Björn W. Schuller

评论：代码：https://github.com/CHI-TUM/ser-progress-replication 提交以供审阅

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[25] arXiv:2508.02521 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：面向可靠音频深度伪造归属和模型识别：一种多级自编码器框架

标题： Towards Reliable Audio Deepfake Attribution and Model Recognition: A Multi-Level Autoencoder-Based Framework

Andrea Di Pierno (1), Luca Guarnera (2), Dario Allegra (2), Sebastiano Battiato (2) ((1) IMT School of Advanced Studies, (2) University of Catania)

主题：声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 音频与语音处理 (eess.AS)
[26] arXiv:2508.02801 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：面向设备的自适应知识蒸馏语音检测

标题： Adaptive Knowledge Distillation for Device-Directed Speech Detection

Hyung Gun Chi, Florian Pesce, Wonil Chang, Oggi Rudovic, Arturo Argueta, Stefan Braun, Vineet Garg, Ahmed Hussen Abdelaziz

评论： 5页，2图，被Interspeech接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[27] arXiv:2508.03041 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于人类反馈的神经语音提取

标题： Neural Speech Extraction with Human Feedback

Malek Itani, Ashton Graves, Sefik Emre Eskimez, Shyamnath Gollakota

评论：国际语音会议2025

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[28] arXiv:2508.03047 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： TF-MLPNet：微型实时神经语音分离

标题： TF-MLPNet: Tiny Real-Time Neural Speech Separation

Malek Itani, Tuochao Chen, Shyamnath Gollakota

评论：第六届改善助听设备噪声中语音的清晰度研讨会（Clarity 2025）

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[29] arXiv:2508.03123 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：使用人类反馈的强化学习微调文本到语音扩散模型

标题： Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback

Jingyi Chen, Ju Seung Byun, Micha Elsner, Pichao Wang, Andrew Perrault

评论： 4页，1图，INTERSPEECH 2025。arXiv管理员注释：文本重叠与arXiv:2405.14632

期刊参考：国际语音会议2025

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[30] arXiv:2508.03166 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： MiSTR：基于Transformer的韵律预测和神经相位重建的多模态iEEG到语音合成

标题： MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction

Mohammed Salah Al-Radhi, Géza Németh, Branislav Gerazov

评论： 5页，2图，1表。已被接受在Interspeech 2025上展示

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[31] arXiv:2508.03365 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：当良好声音变得对抗性：使用良性输入破解音频-语言模型

标题： When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 密码学与安全 (cs.CR) ; 音频与语音处理 (eess.AS)
[32] arXiv:2508.03448 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SonicMaster：面向可控制的全合一音乐修复与母带处理

标题： SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

Jan Melechovsky, Ambuj Mehrish, Abhinaba Roy, Dorien Herremans

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[33] arXiv:2508.03543 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： EmoSteer-TTS：通过激活引导实现细粒度和无需训练的情感可控文本转语音

标题： EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

评论： 25页，9图，3表

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[34] arXiv:2508.03764 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： CoughViT：用于咳嗽音频表示学习的自监督视觉变换器

标题： CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning

Justin Luong, Hao Xue, Flora D. Salim

评论：被ISWC接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[35] arXiv:2508.03780 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：本质上可解释的模型是否更稳健？一项在音乐情感识别中的研究

标题： Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition

Katharina Hoedt, Arthur Flexer, Gerhard Widmer

评论： 8页，发表于2025年第22届声音与音乐计算会议论文集（SMC-25）

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[36] arXiv:2508.03983 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MiDashengLM：使用通用音频描述进行高效的音频理解

标题： MiDashengLM: Efficient Audio Understanding with General Audio Captions

Heinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[37] arXiv:2508.04096 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于LLM的ASR的有效扩展

标题： Efficient Scaling for LLM-based ASR

Bingshen Mu, Yiwen Shao, Kun Wei, Dong Yu, Lei Xie

评论：被ASRU 2025接收

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[38] arXiv:2508.04195 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： NVSpeech：一种集成且可扩展的管道，用于具有副语言声音的人类语音建模

标题： NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[39] arXiv:2508.04529 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： ESDD 2026：环境声音深度伪造检测挑战评估计划

标题： ESDD 2026: Environmental Sound Deepfake Detection Challenge Evaluation Plan

Han Yin, Yang Xiao, Rohan Kumar Das, Jisheng Bai, Ting Dang

主题：声音 (cs.SD)
[40] arXiv:2508.04651 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：现场音乐模型

标题： Live Music Models

Lyria Team: Antoine Caillon, Brian McWilliams, Cassie Tarakajian, Ian Simon, Ilaria Manco, Jesse Engel, Noah Constant, Yunpeng Li, Timo I. Denk, Alberto Lalama, Andrea Agostinelli, Cheng-Zhi Anna Huang, Ethan Manilow, George Brower, Hakan Erdogan, Heidi Lei, Itai Rolnick, Ivan Grishchenko, Manu Orsini, Matej Kastelic, Mauricio Zuluaga, Mauro Verzetti, Michael Dooley, Ondrej Skopek, Rafael Ferrer, Zalán Borsos, Äaron van den Oord, Douglas Eck, Eli Collins, Jason Baldridge, Tom Hume, Chris Donahue, Kehang Han, Adam Roberts

主题：声音 (cs.SD) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG)
[41] arXiv:2508.04721 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：面向电信的低延迟端到端语音代理，使用流式ASR、量化LLMs和实时TTS

标题： Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS

Vignesh Ethiraj, Ashwath David, Sidhanth Menon, Divya Vijay

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[42] arXiv:2508.04723 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：可穿戴音乐到情感：通过便携式 EEG-fNIRS 融合评估人工智能生成音乐引起的情感

标题： Wearable Music2Emotion : Assessing Emotions Induced by AI-Generated Music through Portable EEG-fNIRS Fusion

Sha Zhao, Song Yi, Yangxuan Zhou, Jiadong Pan, Jiquan Wang, Jie Xia, Shijian Li, Shurong Dong, Gang Pan

评论：被ACM MM 2025接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[43] arXiv:2508.05011 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：面向无幻觉音乐：一种用于可靠歌曲生成的强化学习偏好优化框架

标题： Towards Hallucination-Free Music: A Reinforcement Learning Preference Optimization Framework for Reliable Song Generation

Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong Wu, Shuai Wang, Qijun Huang, Dong Yu

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[44] arXiv:2508.05207 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：光谱流：一种通用音频的神经编解码器

标题： SpectroStream: A Versatile Neural Codec for General Audio

Yunpeng Li, Kehang Han, Brian McWilliams, Zalan Borsos, Marco Tagliasacchi

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[45] arXiv:2508.05306 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：从自回归扩散模型噪声空间中的音频估计音乐意外性

标题： Estimating Musical Surprisal from Audio in Autoregressive Diffusion Model Noise Spaces

Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer

评论： 9页，1图，5表。已被第25届国际音乐信息检索学会会议（ISMIR）接受，会议在韩国大田举行，2025年2025年

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[46] arXiv:2508.05385 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：一种可扩展的管道，用于实现非言语语音生成和理解

标题： A Scalable Pipeline for Enabling Non-Verbal Speech Generation and Understanding

Runchuan Ye, Yixuan Zhou, Renjie Yu, Zijian Lin, Kehan Li, Xiang Li, Xin Liu, Guoyang Zeng, Zhiyong Wu

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[47] arXiv:2508.05554 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SPGISpeech 2.0：用于说话人标记转录的多说话人金融音频转录

标题： SPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcription

Raymond Grossman, Taejin Park, Kunal Dhawan, Andrew Titus, Sophia Zhi, Yulia Shchadilova, Weiqing Wang, Jagadeesh Balam, Boris Ginsburg

评论：将要在2025年国际语音会议上演示

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[48] arXiv:2508.05878 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：在人工生成的音频上训练和弦识别模型

标题： Training chord recognition models on artificially generated audio

Martyna Majchrzak, Jacek Mańdziuk

主题：声音 (cs.SD) ; 机器学习 (cs.LG)
[49] arXiv:2508.05978 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： DAFMSVC：具有双注意力机制和流匹配的一次性歌唱语音转换

标题： DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching

Wei Chen, Binzhu Sha, Dan Luo, Jing Yang, Zhuo Wang, Fan Fan, Zhiyong Wu

评论：被INTERSPEECH 2025接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[50] arXiv:2508.06098 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MeanAudio：使用均值流的快速且忠实的文本到音频生成

标题： MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows

Xiquan Li, Junxi Liu, Yuzhe Liang, Zhikang Niu, Wenxi Chen, Xie Chen

主题：声音 (cs.SD) ; 人工智能 (cs.AI)

总共 291 条目 : 1-50 51-100 101-150 151-200 ... 251-291

显示最多 50 每页条目：较少 | 更多 | 所有

声音

2025年08月 的作者和标题

2025年08月的作者和标题