Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.SD

帮助 | 高级搜索

声音

最近提交的作者和标题

  • 2025年08月15日, 星期五
  • 2025年08月14日, 星期四
  • 2025年08月13日, 星期三
  • 2025年08月12日, 星期二
  • 2025年08月11日, 星期一

查看今天的 新的 变化

总共 76 条目 : 1-50 51-76
显示最多 50 每页条目: 较少 | 更多 | 所有

2025年08月15日, 星期五 (展示 13 之 13 条目 )

[1] arXiv:2508.10830 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 语音分离的进步:技术、挑战与未来趋势
标题: Advances in Speech Separation: Techniques, Challenges, and Future Trends
Kai Li, Guo Chen, Wendi Sang, Yi Luo, Zhuo Chen, Shuai Wang, Shulin He, Zhong-Qiu Wang, Andong Li, Zhiyong Wu, Xiaolin Hu
评论: 34页,10图
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[2] arXiv:2508.10559 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 假语音野生:在社交媒体平台上检测深度伪造语音
标题: Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform
Yuankun Xie, Ruibo Fu, Xiaopeng Wang, Zhiyong Wang, Ya Li, Zhengqi Wen, Haonnan Cheng, Long Ye
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[3] arXiv:2508.10472 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 韩国民谣形式功能关联的动机级分析
标题: Motive-level Analysis of Form-functions Association in Korean Folk song
Danbinaerin Han, Dasaem Jeong, Juhan Nam
期刊参考: 紧急演示,ISMIR,2025
主题: 声音 (cs.SD) ; 计算机与社会 (cs.CY)
[4] arXiv:2508.10436 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 交替方法- putt 模型用于多阶段语音增强
标题: Alternating Approach-Putt Models for Multi-Stage Speech Enhancement
Iksoon Jeong, Kyung-Joong Kim, Kang-Hun Ahn
评论: 此工作已提交给IEEE以供可能发表
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[5] arXiv:2508.10412 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 利用知识锚定和课程学习为构音障碍说话者提供个性化的TTS
标题: Facilitating Personalized TTS for Dysarthric Speakers Using Knowledge Anchoring and Curriculum Learning
Yejin Jeon, Solee Im, Youngjae Kim, Gary Geunbae Lee
评论: 国际语音会议2025
主题: 声音 (cs.SD)
[6] arXiv:2508.10360 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 一种用于助听器识别听觉相关环境的数据集和模型:AHEAD-DS 和 YAMNet+
标题: A dataset and model for recognition of audiologically relevant environments for hearing aids: AHEAD-DS and YAMNet+
Henry Zhong, Jörg M. Buchholz, Julian Maclaren, Simon Carlile, Richard Lyon
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[7] arXiv:2508.10230 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 音频预训练在生物声学中没有免费的午餐:嵌入表示的基准研究
标题: No Free Lunch from Audio Pretraining in Bioacoustics: A Benchmark Study of Embeddings
Chenggang Chen, Zhiyu Yang
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[8] arXiv:2508.10049 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 动态同步与共振作为1/f波动的普遍起源——音乐与自然中的振幅调制
标题: Dynamic Synchronization and Resonance as a Universal Origin of 1/f Fluctuations -- Amplitude Modulation Across Music and Nature
Akika Nakamichi, Izumi Uesaka, Masahiro Morikawa
评论: 14页,10图
主题: 声音 (cs.SD)
[9] arXiv:2508.09994 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 更聪明地耳语,而不是更努力:部分抑制上的对抗攻击
标题: Whisper Smarter, not Harder: Adversarial Attack on Partial Suppression
Zheng Jie Wong, Bingquan Shen
评论: 13页,7图
主题: 声音 (cs.SD) ; 密码学与安全 (cs.CR) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[10] arXiv:2508.10580 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 基于集成同步性方法和人脸-语音关联范式的自传式记录中鲁棒的主动说话人检测
标题: Ensembling Synchronisation-based and Face-Voice Association Paradigms for Robust Active Speaker Detection in Egocentric Recordings
Jason Clarke, Yoshihiko Gotoh, Stefan Goetze
评论: 被接受至SPECOM 2025,13页,4图。将发表于第27届国际语音与计算机会议(SPECOM)2025论文集,2025年10月13-14日,匈牙利塞格德
主题: 多媒体 (cs.MM) ; 声音 (cs.SD)
[11] arXiv:2508.10414 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: MCP2OSC:通过自然语言的参数控制
标题: MCP2OSC: Parametric Control by Natural Language
Yuan-Yi Fan
主题: 人机交互 (cs.HC) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[12] arXiv:2508.10332 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 儿童语音年龄和性别分类的自监督表示分层分析
标题: Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech
Abhijit Sinha, Harishankar Kumar, Mohit Joshi, Hemant Kumar Kathania, Shrikanth Narayanan, Sudarsana Reddy Kadiri
评论: 已被儿童计算机交互研讨会(WOCCI 2025)接受
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[13] arXiv:2508.10009 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 超越硬共享:带有监督专家混合的高效多任务语音到文本建模
标题: Beyond Hard Sharing: Efficient Multi-Task Speech-to-Text Modeling with Supervised Mixture of Experts
Hojun Jin, Eunsoo Hong, Ziwon Hyung, Sungjun Lim, Seungjin Lee, Keunseok Cho
评论: 被接受至2025年国际语音通信会议
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)

2025年08月14日, 星期四 (展示 9 之 9 条目 )

[14] arXiv:2508.09880 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 一种针对注意力、CTC、因子混合和转换器模型的ASR系统组合比较分析
标题: A Comparative Analysis on ASR System Combination for Attention, CTC, Factored Hybrid, and Transducer Models
Noureldin Bayoumi, Robin Schmitt, Tina Raissi, Albert Zeyer, Ralf Schlüter, Hermann Ney
评论: 被接受在IEEE语音通信会议上展示;第16届ITG会议
主题: 声音 (cs.SD)
[15] arXiv:2508.09868 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过TTS启用的目标领域和声学条件分离的ASR架构间的领域偏移分析
标题: Analysis of Domain Shift across ASR Architectures via TTS-Enabled Separation of Target Domain and Acoustic Conditions
Tina Raissi, Nick Rossenbach, Ralf Schlüter
评论: 被接受在IEEE ASRU 2025上进行展示
主题: 声音 (cs.SD)
[16] arXiv:2508.09790 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: BeatFM:利用预训练音乐基础模型改进节拍跟踪
标题: BeatFM: Improving Beat Tracking with Pre-trained Music Foundation Model
Ganghui Ru, Jieying Wang, Jiahao Zhao, Yulun Wu, Yi Yu, Nannan Jiang, Wei Wang, Wei Li
评论: 这篇论文已被ICME2025接收
主题: 声音 (cs.SD)
[17] arXiv:2508.09788 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: HingeNet:一种用于节拍跟踪的谐波感知微调方法
标题: HingeNet: A Harmonic-Aware Fine-Tuning Approach for Beat Tracking
Ganghui Ru, Jieying Wang, Jiahao Zhao, Yulun Wu, Yi Yu, Nannan Jiang, Wei Wang, Wei Li
评论: 这篇论文已被ICME2025接受
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[18] arXiv:2508.09728 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MetaGuardian:通过先进声学超材料增强语音助手的安全性
标题: MetaGuardian: Enhancing Voice Assistant Security through Advanced Acoustic Metamaterials
Zhiyuan Ning, Zheng Wang, Zhanyong Tang
主题: 声音 (cs.SD)
[19] arXiv:2508.09600 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: OSUM-EChat:通过理解驱动的口语对话增强端到端同理心口语聊天机器人
标题: OSUM-EChat: Enhancing End-to-End Empathetic Spoken Chatbot via Understanding-Driven Spoken Dialogue
Xuelong Geng, Qijie Shao, Hongfei Xue, Shuiyuan Wang, Hanke Xie, Zhao Guo, Yi Zhao, Guojian Li, Wenjie Tian, Chengyou Wang, Zhixian Zhao, Kangxiang Xia, Ziyu Zhang, Zhennan Lin, Tianlun Zuo, Mingchen Shao, Yuang Cao, Guobin Ma, Longhao Li, Yuhang Dai, Dehui Gao, Dake Guo, Lei Xie
主题: 声音 (cs.SD)
[20] arXiv:2508.09702 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: $\text{M}^3\text{PDB}$: 一种用于语音生成的多模态、多标签、多语言提示数据库
标题: $\text{M}^3\text{PDB}$: A Multimodal, Multi-Label, Multilingual Prompt Database for Speech Generation
Boyu Zhu, Cheng Gong, Muyang Wu, Ruihao Jing, Fan Liu, Xiaolei Zhang, Chi Zhang, Xuelong Li
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[21] arXiv:2508.09430 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 利用Zipformer模型在混合语言儿童导向语音中进行有效的语言识别
标题: Leveraging Zipformer Model for Effective Language Identification in Code-Switched Child-Directed Speech
Lavanya Shankar, Leibny Paola Garcia Perera
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD)
[22] arXiv:2508.09389 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: ProMode:基于声学和文本输入的语音韵律模型
标题: ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs
Eray Eren, Qingju Liu, Hyeongwoo Kim, Pablo Garrido, Abeer Alwan
评论: 国际语音会议2025;演示页面在 https://promode8272.github.io/promode/index.html
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD)

2025年08月13日, 星期三 (展示 13 之 13 条目 )

[23] arXiv:2508.09126 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: Neutone SDK:用于神经音频处理的开源框架
标题: Neutone SDK: An Open Source Framework for Neural Audio Processing
Christopher Mitcheltree, Bogdan Teleaga, Andrew Fyfe, Naotake Masuda, Matthias Schäfer, Alfie Bradic, Nao Tokui
评论: 被AES国际会议《人工智能与机器学习在音频中的应用》2025接收
主题: 声音 (cs.SD) ; 软件工程 (cs.SE) ; 音频与语音处理 (eess.AS)
[24] arXiv:2508.08967 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 揭示音频通道在语音识别性能下降中的作用
标题: Revealing the Role of Audio Channels in ASR Performance Degradation
Kuan-Tang Huang, Li-Wei Chen, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang
评论: 被IEEE ASRU 2025接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
[25] arXiv:2508.08961 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: DualSpeechLM:通过大型语言模型的双语音标记建模实现统一的语音理解和生成
标题: DualSpeechLM: Towards Unified Speech Understanding and Generation via Dual Speech Token Modeling with Large Language Models
Yuanyuan Wang, Dongchao Yang, Yiwen Shao, Hangting Chen, Jiankun Zhao, Zhiyong Wu, Helen Meng, Xixin Wu
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[26] arXiv:2508.08957 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: QAMRO:面向音频生成系统的人类对齐评估的质量感知自适应边界排序优化
标题: QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems
Chien-Chun Wang, Kuan-Tang Huang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen
评论: 被IEEE ASRU 2025接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[27] arXiv:2508.08892 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于辅助分类器生成对抗网络的声音信号合成,以新冠肺炎咳嗽为例
标题: Sound Signal Synthesis with Auxiliary Classifier GAN, COVID-19 cough as an example
Yahya Sherif Solayman Mohamed Saleh, Ahmed Mohammed Dabbous, Lama Alkhaled, Hum Yan Chai, Muhammad Ehsan Rana, Hamam Mokayed
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[28] arXiv:2508.08805 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 开启音乐创造力? 生成式人工智能音乐系统中的嵌入意识形态
标题: Opening Musical Creativity? Embedded Ideologies in Generative-AI Music Systems
Liam Pram, Fabio Morreale
评论: 在2024年首届国际人工智能音乐研究会议上的演讲扩展版
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC)
[29] arXiv:2508.08775 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 声辐射:一种无需鬼细胞的混合数值解法
标题: SonicRadiation: A Hybrid Numerical Solution for Sound Radiation without Ghost Cells
Xutong Jin, Guoping Wang, Sheng Li
评论: 11页
主题: 声音 (cs.SD) ; 图形学 (cs.GR) ; 数值分析 (math.NA)
[30] arXiv:2508.08559 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 多目标后门攻击针对说话人识别
标题: Multi-Target Backdoor Attacks Against Speaker Recognition
Alexandrine Fortier, Sonal Joshi, Thomas Thebaud, Jesus Villalba Lopez, Najim Dehak, Patrick Cardinal
评论: 被接受为2025年IEEE自动语音识别与理解研讨会
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[31] arXiv:2508.08550 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 细粒度视频配音时长对齐与段监督偏好优化
标题: Fine-grained Video Dubbing Duration Alignment with Segment Supervised Preference Optimization
Chaoqun Cui, Liangbin Huang, Shijing Wang, Zhe Tong, Zhaolong Huang, Xiao Zeng, Xiaofeng Liu
评论: 本文被ACL2025(主会议)接收
期刊参考: 第63届计算语言学协会年会论文集(第一卷:长文)。2025:4524-4546
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL)
[32] arXiv:2508.08468 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 音视频语音增强:架构设计和部署策略
标题: Audio-Visual Speech Enhancement: Architectural Design and Deployment Strategies
Anis Hamadouche, Haifeng Luo, Mathini Sellathurai, Tharm Ratnarajah
主题: 声音 (cs.SD) ; 信号处理 (eess.SP)
[33] arXiv:2508.08953 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 通过声音聆听:利用声学上下文表示的生成语音恢复
标题: Listen through the Sound: Generative Speech Restoration Leveraging Acoustic Context Representation
Soo-Whan Chung, Min-Seok Choi
评论: 被INTERSPEECH 2025接收
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[34] arXiv:2508.08925 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: LPGNet:一种用于多模态情感识别的轻量级网络,具有并行注意力和门控融合
标题: LPGNet: A Lightweight Network with Parallel Attention and Gated Fusion for Multimodal Emotion Recognition
Zhining He, Yang Xiao
评论: 正在同行评审中
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[35] arXiv:2508.08890 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于扩散的语音修复的瞬态噪声去除
标题: Transient Noise Removal via Diffusion-based Speech Inpainting
Mordehay Moradi, Sharon Gannot
评论: 23页,3图,一篇关于语音修复的信号处理论文
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)

2025年08月12日, 星期二 (展示 首先 31 之 15 条目 )

[36] arXiv:2508.08039 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 音频思考者:通过强化学习指导音频语言模型何时以及如何思考
标题: Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
Shu Wu, Chenxing Li, Wenfu Wang, Hao Zhang, Hualei Wang, Meng Yu, Dong Yu
评论: 预印本
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[37] arXiv:2508.08027 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 将ASR与LLMs结合用于构音障碍语音识别:自监督和生成方法的基准测试
标题: Bridging ASR and LLMs for Dysarthric Speech Recognition: Benchmarking Self-Supervised and Generative Approaches
Ahmed Aboeitta, Ahmed Sharshar, Youssef Nafea, Shady Shehata
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[38] arXiv:2508.07987 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 探索用于自动原声吉他指弹转录的程序化数据生成
标题: Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription
Sebastian Murgul, Michael Heizmann
评论: 被2025年第六届人工智能音乐创造力会议(AIMC)接收
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[39] arXiv:2508.07973 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 吉他扫弦方向和和弦的联合转录
标题: Joint Transcription of Acoustic Guitar Strumming Directions and Chords
Sebastian Murgul, Johannes Schimper, Michael Heizmann
评论: 被第26届国际音乐信息检索学会会议(ISMIR)2025接受
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[40] arXiv:2508.07944 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SCDF:用于偏差分析的说话人特征深度伪造语音数据集
标题: SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis
Vojtěch Staněk, Karel Srna, Anton Firc, Kamil Malinka
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 密码学与安全 (cs.CR)
[41] arXiv:2508.07751 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 使用U-Net图像着色器填充MIDI音量
标题: Filling MIDI Velocity using U-Net Image Colorizer
Zhanhong He, David Cooper, Defeng Huang, Roberto Togneri
评论: 12页,提交至CMMR2025会议
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[42] arXiv:2508.07563 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 探索用于区域语音分离的有效方向和距离线索
标题: Exploring Efficient Directional and Distance Cues for Regional Speech Separation
Yiheng Jiang, Haoxu Wang, Yafeng Chen, Gang Qiao, Biao Tian
评论: 本文已被Interspeech 2025接受
主题: 声音 (cs.SD)
[43] arXiv:2508.07561 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 一种适用于移动全双工语音交互的小型声学回声消除解决方案
标题: A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions
Yiheng Jiang, Tian Biao
评论: 本文被接受至ICASSP 2025
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[44] arXiv:2508.07363 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 关键词 Mamba:使用状态空间模型的语音关键词检测
标题: Keyword Mamba: Spoken Keyword Spotting with State Space Models
Hanyu Ding, Wenlong Dong, Qirong Mao
评论: 正在同行评审中
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[45] arXiv:2508.07176 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 噪声鲁棒的通过语言查询的声音事件检测与计数
标题: Noise-Robust Sound Event Detection and Counting via Language-Queried Sound Separation
Yuanjian Chen, Yang Xiao, Han Yin, Yadong Guan, Xubo Liu
主题: 声音 (cs.SD)
[46] arXiv:2508.07157 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于单水听器的北极水下声源深度估计方法
标题: Acoustic source depth estimation method based on a single hydrophone in Arctic underwater
Jinbao Weng (1,2), Yubo Qi (3), Yanming Yang (1,2), Hongtao Wen (1,2), Hongtao Zhou (1,2), Benqing Chen (1,2), Dewei Xu (1,2), Ruichao Xue (1,2), Caigao Zeng (1,2) ((1) Laboratory of Ocean acoustics and Remote Sensing, Third Institute of Oceanography, Ministry of Natural Resources, Xiamen, Fujian, China (2) Fujian Provincial Key Laboratory of Marine Physical and Geological Processes, Xiamen, Fujian, China (3) State key laboratory of acoustics, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China)
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 数值分析 (math.NA) ; 大气与海洋物理 (physics.ao-ph) ; 应用物理 (physics.app-ph)
[47] arXiv:2508.07152 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于随机空气枪信号的北极双通道声速剖面反演
标题: Inversion of Arctic dual-channel sound speed profile based on random airgun signal
Jinbao Weng (1,2), Yubo Qi (3), Yanming Yang (1,2), Hongtao Wen (1,2), Hongtao Zhou (1,2), Benqing Chen (1,2), Dewei Xu (1,2), Ruichao Xue (1,2), Caigao Zeng (1,2) ((1) Laboratory of Ocean acoustics and Remote Sensing, Third Institute of Oceanography, Ministry of Natural Resources, Xiamen, Fujian, China (2) Fujian Provincial Key Laboratory of Marine Physical and Geological Processes, Xiamen, Fujian, China (3) State key laboratory of acoustics, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China)
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 数值分析 (math.NA) ; 大气与海洋物理 (physics.ao-ph) ; 应用物理 (physics.app-ph)
[48] arXiv:2508.07086 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SEF-MK:通过多k均值量化实现无说话人嵌入的语音匿名化
标题: SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization
Beilong Tang, Xiaoxiao Miao, Xin Wang, Ming Li
评论: 8页,3图,已被2025年IEEE自动语音识别与理解研讨会(ASRU)接受
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[49] arXiv:2508.07048 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: Whisfusion:通过扩散变换器进行并行ASR解码
标题: Whisfusion: Parallel ASR Decoding via a Diffusion Transformer
Taeyoun Kwon, Junhyuk Ahn, Taegeun Yun, Heeju Jwa, Yoonchae Choi, Siwon Park, Nam-Joon Kim, Jangchan Kim, Hyun Gon Ryu, Hyuk-Jae Lee
评论: 16页,9图
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[50] arXiv:2508.06890 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: Maestro-EVC:由参考和显式语调引导的可控制情感语音转换
标题: Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody
Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh
评论: 被ASRU 2025接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
总共 76 条目 : 1-50 51-76
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号