Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.SD

帮助 | 高级搜索

声音

2025年08月 的作者和标题

总共 291 条目 : 1-50 51-100 101-150 151-200 ... 251-291
显示最多 50 每页条目: 较少 | 更多 | 所有
[1] arXiv:2508.00317 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过科学挑战和开源活动推动语音质量评估的发展
标题: Advancing Speech Quality Assessment Through Scientific Challenges and Open-source Activities
Wen-Chin Huang
评论: APSIPA ASC 2025 视角论文
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[2] arXiv:2508.00733 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: AudioGen-Omni:一种用于视频同步音频、语音和歌曲生成的统一多模态扩散Transformer
标题: AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation
Le Wang, Jun Wang, Chunyu Qiang, Feng Deng, Chen Zhang, Di Zhang, Kun Gai
评论: 12页,2图
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[3] arXiv:2508.01166 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 用更少听到更多:多模态检索与选择增强的对话式大语言模型语音识别
标题: Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR
Bingshen Mu, Hexin Liu, Hongfei Xue, Kun Wei, Lei Xie
主题: 声音 (cs.SD)
[4] arXiv:2508.01172 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: GeHirNet:一种性别感知的分层模型用于语音病理分类
标题: GeHirNet: A Gender-Aware Hierarchical Model for Voice Pathology Classification
Fan Wu (1), Kaicheng Zhao (2), Elgar Fleisch (1 and 3), Filipe Barata (1) ((1) Centre for Digital Health Interventions, ETH Zurich, Zurich, Switzerland, (2) Institute of Mechanism Theory, Machine Dynamics and Robotics, RWTH Aachen University, Aachen, Germany, (3) Centre for Digital Health Interventions, University of St. Gallen, St. Gallen, Switzerland)
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[5] arXiv:2508.01178 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 推进音乐理解的基础模型
标题: Advancing the Foundation Model for Music Understanding
Yi Jiang, Wei Wang, Xianwen Guo, Huiyun Liu, Hanrui Wang, Youri Xu, Haoqi Gu, Zhongqian Xie, Chuanjiang Luo
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 信息检索 (cs.IR) ; 音频与语音处理 (eess.AS)
[6] arXiv:2508.01277 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 生物声学的基础模型 -- 比较综述
标题: Foundation Models for Bioacoustics -- a Comparative Review
Raphael Schwinger, Paria Vali Zadeh, Lukas Rauch, Mats Kurz, Tom Hauschild, Sam Lapp, Sven Tomforde
评论: 预印本
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS) ; 定量方法 (q-bio.QM)
[7] arXiv:2508.01394 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过分数到性能:使用小节级符号记谱的高效人类可控制长歌曲生成
标题: Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation
Tongxi Wang, Yang Yu, Qing Wang, Junlang Qian
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[8] arXiv:2508.01488 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: PESTO:具有自监督转置等变目标的实时音高估计
标题: PESTO: Real-Time Pitch Estimation with Self-supervised Transposition-equivariant Objective
Alain Riou, Bernardo Torres, Ben Hayes, Stefan Lattner, Gaëtan Hadjeres, Gaël Richard, Geoffroy Peeters
期刊参考: 国际音乐信息检索学会汇刊,8(1): 334-352 (2025)
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[9] arXiv:2508.01493 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于最优传输的音高估计的翻译等变自监督学习
标题: Translation-Equivariant Self-Supervised Learning for Pitch Estimation with Optimal Transport
Bernardo Torres, Alain Riou, Gaël Richard, Geoffroy Peeters
评论: 扩展摘要 for 26th 国际音乐信息检索学会的最新演示会议 session
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[10] arXiv:2508.01498 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: ShrutiSense:印度古典音乐中的微音调建模与校正
标题: ShrutiSense: Microtonal Modeling and Correction in Indian Classical Music
Rajarshi Ghosh, Jayanth Athipatla
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[11] arXiv:2508.01571 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过最短路径查找的自动旋律简化
标题: Automatic Melody Reduction via Shortest Path Finding
Ziyu Wang, Yuxuan Wu, Roger B. Dannenberg, Gus Xia
评论: 被ISMIR 2025接收的论文。 https://ismir2025.ismir.net/accepted-papers
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[12] arXiv:2508.01659 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 从对比到共性:用于增强多模态大语言模型中音频-文本跨模态理解的音频共性描述
标题: From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs
Yuhang Jia, Xu Zhang, Yujie Guo, Yang Chen, Shiwan Zhao
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[13] arXiv:2508.01691 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: Voxlect:一种用于建模全球方言和区域语言的语音基础模型基准
标题: Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe
Tiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[14] arXiv:2508.01796 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过在声码器之前显式扩展带宽来提高歌唱语音合成的频谱图真实性
标题: Enhancing Spectrogram Realism in Singing Voice Synthesis via Explicit Bandwidth Extension Prior to Vocoder
Runxuan Yang, Kai Li, Guo Chen, Xiaolin Hu
评论: 7页,8图
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[15] arXiv:2508.01897 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过庞加莱球中的分层结构学习和特征白化进行可泛化的音频深度伪造检测
标题: Generalizable Audio Deepfake Detection via Hierarchical Structure Learning and Feature Whitening in Poincaré sphere
Mingru Yang, Yanmei Gu, Qianhua He, Yanxiong Li, Peirong Zhang, Yongqiang Chen, Zhiming Wang, Huijia Zhu, Jian Liu, Weiqiang Wang
评论: 已接受发表于Interspeech 2025
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[16] arXiv:2508.01960 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 非言语的发声及其挑战:情感、隐私、稀疏性和现实生活
标题: Non-Verbal Vocalisations and their Challenges: Emotion, Privacy, Sparseness, and Real Life
Anton Batliner, Shahin Amiriparian, Björn W. Schuller
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[17] arXiv:2508.02000 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过分层边界建模定位音视频深度伪造
标题: Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling
Xuanjun Chen, Shih-Peng Cheng, Jiawei Du, Lin Zhang, Xiaoxiao Miao, Chung-Che Wang, Haibin Wu, Hung-yi Lee, Jyh-Shing Roger Jang
评论: 进行中
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 音频与语音处理 (eess.AS) ; 图像与视频处理 (eess.IV)
[18] arXiv:2508.02071 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过扩散的无监督多通道语音去混响
标题: Unsupervised Multi-channel Speech Dereverberation via Diffusion
Yulun Wu, Zhongweiyang Xu, Jianchong Chen, Zhong-Qiu Wang, Romit Roy Choudhury
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[19] arXiv:2508.02175 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 隐藏在噪声中:通过潜在声学模式触发器揭示音频大语言模型对齐中的后门
标题: Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers
Liang Lin, Miao Yu, Kaiwen Luo, Yibo Zhang, Lilan Peng, Dexian Wang, Xuehai Tang, Yuanhe Zhang, Xikang Yang, Zhenhong Zhou, Kun Wang, Yang Liu
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[20] arXiv:2508.02210 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: WhiSQA:使用Whisper编码器特征的非侵入式语音质量预测
标题: WhiSQA: Non-Intrusive Speech Quality Prediction Using Whisper Encoder Features
George Close, Kris Hong, Thomas Hain, Stefan Goetze
评论: 被SPECOM 2025接收
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[21] arXiv:2508.02255 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: StutterCut:用于口吃分割的不确定性引导归一化切割
标题: StutterCut: Uncertainty-Guided Normalised Cut for Dysfluency Segmentation
Suhita Ghosh, Melanie Jouaiti, Jan-Ole Perschewski, Sebastian Stober
评论: 被国际语音通信协会2025年会议接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[22] arXiv:2508.02354 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过语音分析检测慢阻肺:丹麦语音数据集和机器学习方法
标题: Detecting COPD Through Speech Analysis: A Dataset of Danish Speech and Machine Learning Approach
Cuno Sankey-Olsen, Rasmus Hvass Olesen, Tobias Oliver Eberhard, Andreas Triantafyllopoulos, Björn Schuller, Ilhan Aslan
主题: 声音 (cs.SD) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[23] arXiv:2508.02391 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于扩散的音频超分辨率的推理时间缩放
标题: Inference-time Scaling for Diffusion-based Audio Super-resolution
Yizhu Jin, Zhen Ye, Zeyue Tian, Haohe Liu, Qiuqiang Kong, Yike Guo, Wei Xue
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[24] arXiv:2508.02448 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 绘制深度学习在语音情感识别中15年进展的图表:一项复制研究
标题: Charting 15 years of progress in deep learning for speech emotion recognition: A replication study
Andreas Triantafyllopoulos, Anton Batliner, Björn W. Schuller
评论: 代码:https://github.com/CHI-TUM/ser-progress-replication 提交以供审阅
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[25] arXiv:2508.02521 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 面向可靠音频深度伪造归属和模型识别:一种多级自编码器框架
标题: Towards Reliable Audio Deepfake Attribution and Model Recognition: A Multi-Level Autoencoder-Based Framework
Andrea Di Pierno (1), Luca Guarnera (2), Dario Allegra (2), Sebastiano Battiato (2) ((1) IMT School of Advanced Studies, (2) University of Catania)
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 音频与语音处理 (eess.AS)
[26] arXiv:2508.02801 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 面向设备的自适应知识蒸馏语音检测
标题: Adaptive Knowledge Distillation for Device-Directed Speech Detection
Hyung Gun Chi, Florian Pesce, Wonil Chang, Oggi Rudovic, Arturo Argueta, Stefan Braun, Vineet Garg, Ahmed Hussen Abdelaziz
评论: 5页,2图,被Interspeech接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[27] arXiv:2508.03041 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于人类反馈的神经语音提取
标题: Neural Speech Extraction with Human Feedback
Malek Itani, Ashton Graves, Sefik Emre Eskimez, Shyamnath Gollakota
评论: 国际语音会议2025
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[28] arXiv:2508.03047 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: TF-MLPNet:微型实时神经语音分离
标题: TF-MLPNet: Tiny Real-Time Neural Speech Separation
Malek Itani, Tuochao Chen, Shyamnath Gollakota
评论: 第六届改善助听设备噪声中语音的清晰度研讨会(Clarity 2025)
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[29] arXiv:2508.03123 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 使用人类反馈的强化学习微调文本到语音扩散模型
标题: Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback
Jingyi Chen, Ju Seung Byun, Micha Elsner, Pichao Wang, Andrew Perrault
评论: 4页,1图,INTERSPEECH 2025。arXiv管理员注释:文本重叠与arXiv:2405.14632
期刊参考: 国际语音会议2025
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[30] arXiv:2508.03166 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: MiSTR:基于Transformer的韵律预测和神经相位重建的多模态iEEG到语音合成
标题: MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction
Mohammed Salah Al-Radhi, Géza Németh, Branislav Gerazov
评论: 5页,2图,1表。已被接受在Interspeech 2025上展示
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[31] arXiv:2508.03365 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 当良好声音变得对抗性:使用良性输入破解音频-语言模型
标题: When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs
Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 密码学与安全 (cs.CR) ; 音频与语音处理 (eess.AS)
[32] arXiv:2508.03448 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SonicMaster:面向可控制的全合一音乐修复与母带处理
标题: SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering
Jan Melechovsky, Ambuj Mehrish, Abhinaba Roy, Dorien Herremans
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[33] arXiv:2508.03543 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: EmoSteer-TTS:通过激活引导实现细粒度和无需训练的情感可控文本转语音
标题: EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering
Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu
评论: 25页,9图,3表
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[34] arXiv:2508.03764 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: CoughViT:用于咳嗽音频表示学习的自监督视觉变换器
标题: CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning
Justin Luong, Hao Xue, Flora D. Salim
评论: 被ISWC接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[35] arXiv:2508.03780 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 本质上可解释的模型是否更稳健? 一项在音乐情感识别中的研究
标题: Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition
Katharina Hoedt, Arthur Flexer, Gerhard Widmer
评论: 8页,发表于2025年第22届声音与音乐计算会议论文集(SMC-25)
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[36] arXiv:2508.03983 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MiDashengLM:使用通用音频描述进行高效的音频理解
标题: MiDashengLM: Efficient Audio Understanding with General Audio Captions
Heinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[37] arXiv:2508.04096 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于LLM的ASR的有效扩展
标题: Efficient Scaling for LLM-based ASR
Bingshen Mu, Yiwen Shao, Kun Wei, Dong Yu, Lei Xie
评论: 被ASRU 2025接收
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[38] arXiv:2508.04195 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: NVSpeech:一种集成且可扩展的管道,用于具有副语言声音的人类语音建模
标题: NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations
Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[39] arXiv:2508.04529 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: ESDD 2026:环境声音深度伪造检测挑战评估计划
标题: ESDD 2026: Environmental Sound Deepfake Detection Challenge Evaluation Plan
Han Yin, Yang Xiao, Rohan Kumar Das, Jisheng Bai, Ting Dang
主题: 声音 (cs.SD)
[40] arXiv:2508.04651 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 现场音乐模型
标题: Live Music Models
Lyria Team: Antoine Caillon, Brian McWilliams, Cassie Tarakajian, Ian Simon, Ilaria Manco, Jesse Engel, Noah Constant, Yunpeng Li, Timo I. Denk, Alberto Lalama, Andrea Agostinelli, Cheng-Zhi Anna Huang, Ethan Manilow, George Brower, Hakan Erdogan, Heidi Lei, Itai Rolnick, Ivan Grishchenko, Manu Orsini, Matej Kastelic, Mauricio Zuluaga, Mauro Verzetti, Michael Dooley, Ondrej Skopek, Rafael Ferrer, Zalán Borsos, Äaron van den Oord, Douglas Eck, Eli Collins, Jason Baldridge, Tom Hume, Chris Donahue, Kehang Han, Adam Roberts
主题: 声音 (cs.SD) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG)
[41] arXiv:2508.04721 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 面向电信的低延迟端到端语音代理,使用流式ASR、量化LLMs和实时TTS
标题: Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS
Vignesh Ethiraj, Ashwath David, Sidhanth Menon, Divya Vijay
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[42] arXiv:2508.04723 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 可穿戴音乐到情感:通过便携式 EEG-fNIRS 融合评估人工智能生成音乐引起的情感
标题: Wearable Music2Emotion : Assessing Emotions Induced by AI-Generated Music through Portable EEG-fNIRS Fusion
Sha Zhao, Song Yi, Yangxuan Zhou, Jiadong Pan, Jiquan Wang, Jie Xia, Shijian Li, Shurong Dong, Gang Pan
评论: 被ACM MM 2025接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[43] arXiv:2508.05011 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 面向无幻觉音乐:一种用于可靠歌曲生成的强化学习偏好优化框架
标题: Towards Hallucination-Free Music: A Reinforcement Learning Preference Optimization Framework for Reliable Song Generation
Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong Wu, Shuai Wang, Qijun Huang, Dong Yu
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[44] arXiv:2508.05207 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 光谱流:一种通用音频的神经编解码器
标题: SpectroStream: A Versatile Neural Codec for General Audio
Yunpeng Li, Kehang Han, Brian McWilliams, Zalan Borsos, Marco Tagliasacchi
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[45] arXiv:2508.05306 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 从自回归扩散模型噪声空间中的音频估计音乐意外性
标题: Estimating Musical Surprisal from Audio in Autoregressive Diffusion Model Noise Spaces
Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer
评论: 9页,1图,5表。已被第25届国际音乐信息检索学会会议(ISMIR)接受,会议在韩国大田举行,2025年2025年
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[46] arXiv:2508.05385 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 一种可扩展的管道,用于实现非言语语音生成和理解
标题: A Scalable Pipeline for Enabling Non-Verbal Speech Generation and Understanding
Runchuan Ye, Yixuan Zhou, Renjie Yu, Zijian Lin, Kehan Li, Xiang Li, Xin Liu, Guoyang Zeng, Zhiyong Wu
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[47] arXiv:2508.05554 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SPGISpeech 2.0:用于说话人标记转录的多说话人金融音频转录
标题: SPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcription
Raymond Grossman, Taejin Park, Kunal Dhawan, Andrew Titus, Sophia Zhi, Yulia Shchadilova, Weiqing Wang, Jagadeesh Balam, Boris Ginsburg
评论: 将要在2025年国际语音会议上演示
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[48] arXiv:2508.05878 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 在人工生成的音频上训练和弦识别模型
标题: Training chord recognition models on artificially generated audio
Martyna Majchrzak, Jacek Mańdziuk
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[49] arXiv:2508.05978 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: DAFMSVC:具有双注意力机制和流匹配的一次性歌唱语音转换
标题: DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching
Wei Chen, Binzhu Sha, Dan Luo, Jing Yang, Zhuo Wang, Fan Fan, Zhiyong Wu
评论: 被INTERSPEECH 2025接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[50] arXiv:2508.06098 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MeanAudio:使用均值流的快速且忠实的文本到音频生成
标题: MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows
Xiquan Li, Junxi Liu, Yuzhe Liang, Zhikang Niu, Wenxi Chen, Xie Chen
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
总共 291 条目 : 1-50 51-100 101-150 151-200 ... 251-291
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号