声音

最近提交的作者和标题

查看今天的新的变化

总共 76 条目 : 1-50 51-76

显示最多 50 每页条目：较少 | 更多 | 所有

[1] arXiv:2508.10830 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：语音分离的进步：技术、挑战与未来趋势

标题： Advances in Speech Separation: Techniques, Challenges, and Future Trends

Kai Li, Guo Chen, Wendi Sang, Yi Luo, Zhuo Chen, Shuai Wang, Shulin He, Zhong-Qiu Wang, Andong Li, Zhiyong Wu, Xiaolin Hu

评论： 34页，10图

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[2] arXiv:2508.10559 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：假语音野生：在社交媒体平台上检测深度伪造语音

标题： Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform

Yuankun Xie, Ruibo Fu, Xiaopeng Wang, Zhiyong Wang, Ya Li, Zhengqi Wen, Haonnan Cheng, Long Ye

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[3] arXiv:2508.10472 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：韩国民谣形式功能关联的动机级分析

标题： Motive-level Analysis of Form-functions Association in Korean Folk song

Danbinaerin Han, Dasaem Jeong, Juhan Nam

期刊参考：紧急演示，ISMIR，2025

主题：声音 (cs.SD) ; 计算机与社会 (cs.CY)
[4] arXiv:2508.10436 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：交替方法- putt 模型用于多阶段语音增强

标题： Alternating Approach-Putt Models for Multi-Stage Speech Enhancement

Iksoon Jeong, Kyung-Joong Kim, Kang-Hun Ahn

评论：此工作已提交给IEEE以供可能发表

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[5] arXiv:2508.10412 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：利用知识锚定和课程学习为构音障碍说话者提供个性化的TTS

标题： Facilitating Personalized TTS for Dysarthric Speakers Using Knowledge Anchoring and Curriculum Learning

Yejin Jeon, Solee Im, Youngjae Kim, Gary Geunbae Lee

评论：国际语音会议2025

主题：声音 (cs.SD)
[6] arXiv:2508.10360 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：一种用于助听器识别听觉相关环境的数据集和模型：AHEAD-DS 和 YAMNet+

标题： A dataset and model for recognition of audiologically relevant environments for hearing aids: AHEAD-DS and YAMNet+

Henry Zhong, Jörg M. Buchholz, Julian Maclaren, Simon Carlile, Richard Lyon

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[7] arXiv:2508.10230 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：音频预训练在生物声学中没有免费的午餐：嵌入表示的基准研究

标题： No Free Lunch from Audio Pretraining in Bioacoustics: A Benchmark Study of Embeddings

Chenggang Chen, Zhiyu Yang

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[8] arXiv:2508.10049 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：动态同步与共振作为1/f波动的普遍起源——音乐与自然中的振幅调制

标题： Dynamic Synchronization and Resonance as a Universal Origin of 1/f Fluctuations -- Amplitude Modulation Across Music and Nature

Akika Nakamichi, Izumi Uesaka, Masahiro Morikawa

评论： 14页，10图

主题：声音 (cs.SD)
[9] arXiv:2508.09994 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：更聪明地耳语，而不是更努力：部分抑制上的对抗攻击

标题： Whisper Smarter, not Harder: Adversarial Attack on Partial Suppression

Zheng Jie Wong, Bingquan Shen

评论： 13页，7图

主题：声音 (cs.SD) ; 密码学与安全 (cs.CR) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[10] arXiv:2508.10580 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：基于集成同步性方法和人脸-语音关联范式的自传式记录中鲁棒的主动说话人检测

标题： Ensembling Synchronisation-based and Face-Voice Association Paradigms for Robust Active Speaker Detection in Egocentric Recordings

Jason Clarke, Yoshihiko Gotoh, Stefan Goetze

评论：被接受至SPECOM 2025，13页，4图。将发表于第27届国际语音与计算机会议（SPECOM）2025论文集，2025年10月13-14日，匈牙利塞格德

主题：多媒体 (cs.MM) ; 声音 (cs.SD)
[11] arXiv:2508.10414 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题： MCP2OSC：通过自然语言的参数控制

标题： MCP2OSC: Parametric Control by Natural Language

Yuan-Yi Fan

主题：人机交互 (cs.HC) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[12] arXiv:2508.10332 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：儿童语音年龄和性别分类的自监督表示分层分析

标题： Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech

Abhijit Sinha, Harishankar Kumar, Mohit Joshi, Hemant Kumar Kathania, Shrikanth Narayanan, Sudarsana Reddy Kadiri

评论：已被儿童计算机交互研讨会（WOCCI 2025）接受

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[13] arXiv:2508.10009 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：超越硬共享：带有监督专家混合的高效多任务语音到文本建模

标题： Beyond Hard Sharing: Efficient Multi-Task Speech-to-Text Modeling with Supervised Mixture of Experts

Hojun Jin, Eunsoo Hong, Ziwon Hyung, Sungjun Lim, Seungjin Lee, Keunseok Cho

评论：被接受至2025年国际语音通信会议

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)

[14] arXiv:2508.09880 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：一种针对注意力、CTC、因子混合和转换器模型的ASR系统组合比较分析

标题： A Comparative Analysis on ASR System Combination for Attention, CTC, Factored Hybrid, and Transducer Models

Noureldin Bayoumi, Robin Schmitt, Tina Raissi, Albert Zeyer, Ralf Schlüter, Hermann Ney

评论：被接受在IEEE语音通信会议上展示；第16届ITG会议

主题：声音 (cs.SD)
[15] arXiv:2508.09868 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过TTS启用的目标领域和声学条件分离的ASR架构间的领域偏移分析

标题： Analysis of Domain Shift across ASR Architectures via TTS-Enabled Separation of Target Domain and Acoustic Conditions

Tina Raissi, Nick Rossenbach, Ralf Schlüter

评论：被接受在IEEE ASRU 2025上进行展示

主题：声音 (cs.SD)
[16] arXiv:2508.09790 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： BeatFM：利用预训练音乐基础模型改进节拍跟踪

标题： BeatFM: Improving Beat Tracking with Pre-trained Music Foundation Model

Ganghui Ru, Jieying Wang, Jiahao Zhao, Yulun Wu, Yi Yu, Nannan Jiang, Wei Wang, Wei Li

评论：这篇论文已被ICME2025接收

主题：声音 (cs.SD)
[17] arXiv:2508.09788 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： HingeNet：一种用于节拍跟踪的谐波感知微调方法

标题： HingeNet: A Harmonic-Aware Fine-Tuning Approach for Beat Tracking

Ganghui Ru, Jieying Wang, Jiahao Zhao, Yulun Wu, Yi Yu, Nannan Jiang, Wei Wang, Wei Li

评论：这篇论文已被ICME2025接受

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[18] arXiv:2508.09728 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MetaGuardian：通过先进声学超材料增强语音助手的安全性

标题： MetaGuardian: Enhancing Voice Assistant Security through Advanced Acoustic Metamaterials

Zhiyuan Ning, Zheng Wang, Zhanyong Tang

主题：声音 (cs.SD)
[19] arXiv:2508.09600 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： OSUM-EChat：通过理解驱动的口语对话增强端到端同理心口语聊天机器人

标题： OSUM-EChat: Enhancing End-to-End Empathetic Spoken Chatbot via Understanding-Driven Spoken Dialogue

Xuelong Geng, Qijie Shao, Hongfei Xue, Shuiyuan Wang, Hanke Xie, Zhao Guo, Yi Zhao, Guojian Li, Wenjie Tian, Chengyou Wang, Zhixian Zhao, Kangxiang Xia, Ziyu Zhang, Zhennan Lin, Tianlun Zuo, Mingchen Shao, Yuang Cao, Guobin Ma, Longhao Li, Yuhang Dai, Dehui Gao, Dake Guo, Lei Xie

主题：声音 (cs.SD)
[20] arXiv:2508.09702 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： $\text{M}^3\text{PDB}$: 一种用于语音生成的多模态、多标签、多语言提示数据库

标题： $\text{M}^3\text{PDB}$: A Multimodal, Multi-Label, Multilingual Prompt Database for Speech Generation

Boyu Zhu, Cheng Gong, Muyang Wu, Ruihao Jing, Fan Liu, Xiaolei Zhang, Chi Zhang, Xuelong Li

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[21] arXiv:2508.09430 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：利用Zipformer模型在混合语言儿童导向语音中进行有效的语言识别

标题： Leveraging Zipformer Model for Effective Language Identification in Code-Switched Child-Directed Speech

Lavanya Shankar, Leibny Paola Garcia Perera

主题：计算与语言 (cs.CL) ; 声音 (cs.SD)
[22] arXiv:2508.09389 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： ProMode：基于声学和文本输入的语音韵律模型

标题： ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs

Eray Eren, Qingju Liu, Hyeongwoo Kim, Pablo Garrido, Abeer Alwan

评论：国际语音会议2025；演示页面在 https://promode8272.github.io/promode/index.html

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD)

[23] arXiv:2508.09126 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： Neutone SDK：用于神经音频处理的开源框架

标题： Neutone SDK: An Open Source Framework for Neural Audio Processing

Christopher Mitcheltree, Bogdan Teleaga, Andrew Fyfe, Naotake Masuda, Matthias Schäfer, Alfie Bradic, Nao Tokui

评论：被AES国际会议《人工智能与机器学习在音频中的应用》2025接收

主题：声音 (cs.SD) ; 软件工程 (cs.SE) ; 音频与语音处理 (eess.AS)
[24] arXiv:2508.08967 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：揭示音频通道在语音识别性能下降中的作用

标题： Revealing the Role of Audio Channels in ASR Performance Degradation

Kuan-Tang Huang, Li-Wei Chen, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang

评论：被IEEE ASRU 2025接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
[25] arXiv:2508.08961 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： DualSpeechLM：通过大型语言模型的双语音标记建模实现统一的语音理解和生成

标题： DualSpeechLM: Towards Unified Speech Understanding and Generation via Dual Speech Token Modeling with Large Language Models

Yuanyuan Wang, Dongchao Yang, Yiwen Shao, Hangting Chen, Jiankun Zhao, Zhiyong Wu, Helen Meng, Xixin Wu

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[26] arXiv:2508.08957 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： QAMRO：面向音频生成系统的人类对齐评估的质量感知自适应边界排序优化

标题： QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems

Chien-Chun Wang, Kuan-Tang Huang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

评论：被IEEE ASRU 2025接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[27] arXiv:2508.08892 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于辅助分类器生成对抗网络的声音信号合成，以新冠肺炎咳嗽为例

标题： Sound Signal Synthesis with Auxiliary Classifier GAN, COVID-19 cough as an example

Yahya Sherif Solayman Mohamed Saleh, Ahmed Mohammed Dabbous, Lama Alkhaled, Hum Yan Chai, Muhammad Ehsan Rana, Hamam Mokayed

主题：声音 (cs.SD) ; 机器学习 (cs.LG)
[28] arXiv:2508.08805 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：开启音乐创造力？生成式人工智能音乐系统中的嵌入意识形态

标题： Opening Musical Creativity? Embedded Ideologies in Generative-AI Music Systems

Liam Pram, Fabio Morreale

评论：在2024年首届国际人工智能音乐研究会议上的演讲扩展版

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC)
[29] arXiv:2508.08775 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：声辐射：一种无需鬼细胞的混合数值解法

标题： SonicRadiation: A Hybrid Numerical Solution for Sound Radiation without Ghost Cells

Xutong Jin, Guoping Wang, Sheng Li

评论： 11页

主题：声音 (cs.SD) ; 图形学 (cs.GR) ; 数值分析 (math.NA)
[30] arXiv:2508.08559 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：多目标后门攻击针对说话人识别

标题： Multi-Target Backdoor Attacks Against Speaker Recognition

Alexandrine Fortier, Sonal Joshi, Thomas Thebaud, Jesus Villalba Lopez, Najim Dehak, Patrick Cardinal

评论：被接受为2025年IEEE自动语音识别与理解研讨会

主题：声音 (cs.SD) ; 机器学习 (cs.LG)
[31] arXiv:2508.08550 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：细粒度视频配音时长对齐与段监督偏好优化

标题： Fine-grained Video Dubbing Duration Alignment with Segment Supervised Preference Optimization

Chaoqun Cui, Liangbin Huang, Shijing Wang, Zhe Tong, Zhaolong Huang, Xiao Zeng, Xiaofeng Liu

评论：本文被ACL2025（主会议）接收

期刊参考：第63届计算语言学协会年会论文集（第一卷：长文）。2025：4524-4546

主题：声音 (cs.SD) ; 计算与语言 (cs.CL)
[32] arXiv:2508.08468 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：音视频语音增强：架构设计和部署策略

标题： Audio-Visual Speech Enhancement: Architectural Design and Deployment Strategies

Anis Hamadouche, Haifeng Luo, Mathini Sellathurai, Tharm Ratnarajah

主题：声音 (cs.SD) ; 信号处理 (eess.SP)
[33] arXiv:2508.08953 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：通过声音聆听：利用声学上下文表示的生成语音恢复

标题： Listen through the Sound: Generative Speech Restoration Leveraging Acoustic Context Representation

Soo-Whan Chung, Min-Seok Choi

评论：被INTERSPEECH 2025接收

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[34] arXiv:2508.08925 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： LPGNet：一种用于多模态情感识别的轻量级网络，具有并行注意力和门控融合

标题： LPGNet: A Lightweight Network with Parallel Attention and Gated Fusion for Multimodal Emotion Recognition

Zhining He, Yang Xiao

评论：正在同行评审中

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[35] arXiv:2508.08890 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于扩散的语音修复的瞬态噪声去除

标题： Transient Noise Removal via Diffusion-based Speech Inpainting

Mordehay Moradi, Sharon Gannot

评论： 23页，3图，一篇关于语音修复的信号处理论文

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)

[36] arXiv:2508.08039 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：音频思考者：通过强化学习指导音频语言模型何时以及如何思考

标题： Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning

Shu Wu, Chenxing Li, Wenfu Wang, Hao Zhang, Hualei Wang, Meng Yu, Dong Yu

评论：预印本

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[37] arXiv:2508.08027 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：将ASR与LLMs结合用于构音障碍语音识别：自监督和生成方法的基准测试

标题： Bridging ASR and LLMs for Dysarthric Speech Recognition: Benchmarking Self-Supervised and Generative Approaches

Ahmed Aboeitta, Ahmed Sharshar, Youssef Nafea, Shady Shehata

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[38] arXiv:2508.07987 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：探索用于自动原声吉他指弹转录的程序化数据生成

标题： Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription

Sebastian Murgul, Michael Heizmann

评论：被2025年第六届人工智能音乐创造力会议（AIMC）接收

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[39] arXiv:2508.07973 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：吉他扫弦方向和和弦的联合转录

标题： Joint Transcription of Acoustic Guitar Strumming Directions and Chords

Sebastian Murgul, Johannes Schimper, Michael Heizmann

评论：被第26届国际音乐信息检索学会会议（ISMIR）2025接受

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[40] arXiv:2508.07944 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SCDF：用于偏差分析的说话人特征深度伪造语音数据集

标题： SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis

Vojtěch Staněk, Karel Srna, Anton Firc, Kamil Malinka

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 密码学与安全 (cs.CR)
[41] arXiv:2508.07751 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：使用U-Net图像着色器填充MIDI音量

标题： Filling MIDI Velocity using U-Net Image Colorizer

Zhanhong He, David Cooper, Defeng Huang, Roberto Togneri

评论： 12页，提交至CMMR2025会议

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[42] arXiv:2508.07563 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：探索用于区域语音分离的有效方向和距离线索

标题： Exploring Efficient Directional and Distance Cues for Regional Speech Separation

Yiheng Jiang, Haoxu Wang, Yafeng Chen, Gang Qiao, Biao Tian

评论：本文已被Interspeech 2025接受

主题：声音 (cs.SD)
[43] arXiv:2508.07561 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：一种适用于移动全双工语音交互的小型声学回声消除解决方案

标题： A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions

Yiheng Jiang, Tian Biao

评论：本文被接受至ICASSP 2025

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[44] arXiv:2508.07363 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：关键词 Mamba：使用状态空间模型的语音关键词检测

标题： Keyword Mamba: Spoken Keyword Spotting with State Space Models

Hanyu Ding, Wenlong Dong, Qirong Mao

评论：正在同行评审中

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[45] arXiv:2508.07176 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：噪声鲁棒的通过语言查询的声音事件检测与计数

标题： Noise-Robust Sound Event Detection and Counting via Language-Queried Sound Separation

Yuanjian Chen, Yang Xiao, Han Yin, Yadong Guan, Xubo Liu

主题：声音 (cs.SD)
[46] arXiv:2508.07157 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于单水听器的北极水下声源深度估计方法

标题： Acoustic source depth estimation method based on a single hydrophone in Arctic underwater

Jinbao Weng (1,2), Yubo Qi (3), Yanming Yang (1,2), Hongtao Wen (1,2), Hongtao Zhou (1,2), Benqing Chen (1,2), Dewei Xu (1,2), Ruichao Xue (1,2), Caigao Zeng (1,2) ((1) Laboratory of Ocean acoustics and Remote Sensing, Third Institute of Oceanography, Ministry of Natural Resources, Xiamen, Fujian, China (2) Fujian Provincial Key Laboratory of Marine Physical and Geological Processes, Xiamen, Fujian, China (3) State key laboratory of acoustics, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China)

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 数值分析 (math.NA) ; 大气与海洋物理 (physics.ao-ph) ; 应用物理 (physics.app-ph)
[47] arXiv:2508.07152 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于随机空气枪信号的北极双通道声速剖面反演

标题： Inversion of Arctic dual-channel sound speed profile based on random airgun signal

Jinbao Weng (1,2), Yubo Qi (3), Yanming Yang (1,2), Hongtao Wen (1,2), Hongtao Zhou (1,2), Benqing Chen (1,2), Dewei Xu (1,2), Ruichao Xue (1,2), Caigao Zeng (1,2) ((1) Laboratory of Ocean acoustics and Remote Sensing, Third Institute of Oceanography, Ministry of Natural Resources, Xiamen, Fujian, China (2) Fujian Provincial Key Laboratory of Marine Physical and Geological Processes, Xiamen, Fujian, China (3) State key laboratory of acoustics, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China)

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 数值分析 (math.NA) ; 大气与海洋物理 (physics.ao-ph) ; 应用物理 (physics.app-ph)
[48] arXiv:2508.07086 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SEF-MK：通过多k均值量化实现无说话人嵌入的语音匿名化

标题： SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization

Beilong Tang, Xiaoxiao Miao, Xin Wang, Ming Li

评论： 8页，3图，已被2025年IEEE自动语音识别与理解研讨会（ASRU）接受

主题：声音 (cs.SD) ; 机器学习 (cs.LG)
[49] arXiv:2508.07048 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： Whisfusion：通过扩散变换器进行并行ASR解码

标题： Whisfusion: Parallel ASR Decoding via a Diffusion Transformer

Taeyoun Kwon, Junhyuk Ahn, Taegeun Yun, Heeju Jwa, Yoonchae Choi, Siwon Park, Nam-Joon Kim, Jangchan Kim, Hyun Gon Ryu, Hyuk-Jae Lee

评论： 16页，9图

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[50] arXiv:2508.06890 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： Maestro-EVC：由参考和显式语调引导的可控制情感语音转换

标题： Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody

Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh

评论：被ASRU 2025接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL)

总共 76 条目 : 1-50 51-76

显示最多 50 每页条目：较少 | 更多 | 所有

声音

最近提交的作者和标题

2025年08月15日，星期五 (展示 13 之 13 条目 )

2025年08月14日，星期四 (展示 9 之 9 条目 )

2025年08月13日，星期三 (展示 13 之 13 条目 )

2025年08月12日，星期二 (展示首先 31 之 15 条目 )

声音

最近提交的作者和标题

2025年08月15日， 星期五 (展示 13 之 13 条目 )

2025年08月14日， 星期四 (展示 9 之 9 条目 )

2025年08月13日， 星期三 (展示 13 之 13 条目 )

2025年08月12日， 星期二 (展示 首先 31 之 15 条目 )

2025年08月15日，星期五 (展示 13 之 13 条目 )

2025年08月14日，星期四 (展示 9 之 9 条目 )

2025年08月13日，星期三 (展示 13 之 13 条目 )

2025年08月12日，星期二 (展示首先 31 之 15 条目 )