声音

2025年08月的作者和标题

总共 291 条目 : 1-50 51-100 101-150 151-200 201-250 251-291

显示最多 50 每页条目：较少 | 更多 | 所有

[151] arXiv:2508.18907 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SegReConcat：一种语音匿名化攻击的数据增强方法

标题： SegReConcat: A Data Augmentation Method for Voice Anonymization Attack

Ridwan Arefeen, Xiaoxiao Miao, Rong Tong, Aik Beng Ng, Simon See

评论：论文已被APCIPA ASC 2025接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[152] arXiv:2508.19251 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MuSpike：具有脉冲神经网络的符号音乐生成基准和评估框架

标题： MuSpike: A Benchmark and Evaluation Framework for Symbolic Music Generation with Spiking Neural Networks

Qian Liang, Menghaoran Tang, Yi Zeng

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[153] arXiv:2508.19262 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于节拍的MIDI表演节奏量化

标题： Beat-Based Rhythm Quantization of MIDI Performances

Maximilian Wachter, Sebastian Murgul, Michael Heizmann

评论：被接收为2025年第一届AES国际人工智能与机器学习音频会议（AIMLA LBDP）的最新演示论文。

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[154] arXiv:2508.19308 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：婴儿在嘈杂环境中使用蓝图可分离卷积和时频循环神经网络的哭声检测

标题： Infant Cry Detection In Noisy Environment Using Blueprint Separable Convolutions and Time-Frequency Recurrent Neural Network

Haolin Yu, Yanxiong Li

主题：声音 (cs.SD)
[155] arXiv:2508.19514 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MQAD：用于训练音乐大语言模型的大规模问答数据集

标题： MQAD: A Large-Scale Question Answering Dataset for Training Music Large Language Models

Zhihao Ouyang, Ju-Chiang Wang, Daiyu Zhang, Bin Chen, Shangjie Li, Quan Lin

主题：声音 (cs.SD)
[156] arXiv:2508.19603 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： CompLex：由自主代理构建的自动音乐生成音乐理论词典

标题： CompLex: Music Theory Lexicon Constructed by Autonomous Agents for Automatic Music Generation

Zhejing Hu, Yan Liu, Gong Chen, Bruce X.B. Yu

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[157] arXiv:2508.19876 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： IRMA数据集：伊朗古典音乐的结构化音频-MIDI语料库

标题： The IRMA Dataset: A Structured Audio-MIDI Corpus for Iranian Classical Music

Sepideh Shafiei, Shapour Hakam

主题：声音 (cs.SD) ; 数字图书馆 (cs.DL)
[158] arXiv:2508.20513 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MoTAS：从TTS增强语音中基于Moe的特征选择用于增强的多模态阿尔茨海默病早期筛查

标题： MoTAS: MoE-Guided Feature Selection from TTS-Augmented Speech for Enhanced Multimodal Alzheimer's Early Screening

Yongqi Shao, Binxin Mei, Cong Tan, Hong Huo, Tao Fang

主题：声音 (cs.SD) ; 多媒体 (cs.MM)
[159] arXiv:2508.20584 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：更准确的语音增强条件流匹配流畅化

标题： Flowing Straighter with Conditional Flow Matching for Accurate Speech Enhancement

Mattias Cross, Anton Ragni

评论：预印本，已接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[160] arXiv:2508.20665 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：阿马迪乌斯：具有双向属性建模的自回归符号音乐模型

标题： Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music

Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song

评论：正在审核中

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[161] arXiv:2508.20717 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于语音的多种临床状况检测的统一多任务学习

标题： Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions

Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed

主题：声音 (cs.SD) ; 机器学习 (cs.LG)
[162] arXiv:2508.20796 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过熵感知评分选择的语音情感识别

标题： Speech Emotion Recognition via Entropy-Aware Score Selection

ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao

评论：论文已被APCIPA ASC 2025接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[163] arXiv:2508.20869 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： OLMoASR：用于训练鲁棒语音识别模型的开放模型和数据

标题： OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt

评论： 17页，7图

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[164] arXiv:2508.20885 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SincQDR-VAD：一种利用可学习滤波器和排名感知优化的噪声鲁棒语音活动检测框架

标题： SincQDR-VAD: A Noise-Robust Voice Activity Detection Framework Leveraging Learnable Filters and Ranking-Aware Optimization

Chien-Chun Wang, En-Lun Yu, Jeih-Weih Hung, Shih-Chieh Huang, Berlin Chen

评论：被IEEE ASRU 2025接收

主题：声音 (cs.SD)
[165] arXiv:2508.20914 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过特征蒸馏从双耳音频中学习鲁棒的空间表示

标题： Learning Robust Spatial Representations from Binaural Audio through Feature Distillation

Holger Severin Bovbjerg (1), Jan Østergaard (1), Jesper Jensen (1, 2), Shinji Watanabe (3), Zheng-Hua Tan ((1) Aalborg University (2) Eriksholm Research Centre, (3) Carnegie Mellon University)

评论：将出现在2025年10月12日至15日在美国太浩举行的WASPAA会议论文集上。版权所有（c）2025 IEEE。5页，2图，2表。

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[166] arXiv:2508.20976 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： WoW-Bench：通过海洋哺乳动物叫声评估音频-语言模型中的细粒度声学感知

标题： WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations

Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim

评论：预印本。项目页面：https://jaeyeonkim99.github.io/wow_bench/

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[167] arXiv:2508.21153 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： WaveLLDM：一种轻量级潜在扩散模型的设计与开发用于语音增强与恢复

标题： WaveLLDM: Design and Development of a Lightweight Latent Diffusion Model for Speech Enhancement and Restoration

Kevin Putra Santoso, Rizka Wakhidatus Sholikah, Raden Venantius Hari Ginardi

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[168] arXiv:2508.21167 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： RARR：通过采集近表面音频进行鲁棒的现实世界活动识别

标题： RARR : Robust Real-World Activity Recognition with Vibration by Scavenging Near-Surface Audio Online

Dong Yoon Lee, Alyssa Weakley, Hui Wei, Blake Brown, Keyana Carrion, Shijia Pan

主题：声音 (cs.SD) ; 机器学习 (cs.LG)
[169] arXiv:2508.21243 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：全频段时间补丁与结构化掩码用于增强音频分类

标题： Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification

Aditya Makineni, Baocheng Geng, Qing Tian

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[170] arXiv:2508.21407 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： DRASP：一种用于自动MOS预测的双分辨率注意统计池化框架

标题： DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction

Cheng-Yeh Yang, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

评论：被APSIPA ASC 2025接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[171] arXiv:2508.00160 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题： DeformTune：为非音乐家设计的可变形XAI音乐原型

标题： DeformTune: A Deformable XAI Music Prototype for Non-Musicians

Ziqing Xu, Nick Bryan-Kinns

评论：在《2025年解释性人工智能与艺术研讨会论文集》（XAIxArts 2025）arXiv:2406.14485

主题：人机交互 (cs.HC) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[172] arXiv:2508.00240 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于波形域神经网络的Ambisonics超分辨率

标题： Ambisonics Super-Resolution Using A Waveform-Domain Neural Network

Ismael Nawfal, Symeon Delikaris Manias, Mehrez Souden, Juha Merimaa, Joshua Atkins, Elisabeth McMullin, Shadi Pirhosseinloo, Daniel Phillips

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[173] arXiv:2508.00307 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：波束成形的360°声音图：U-Net驱动的声源分割与定位

标题： Beamformed 360° Sound Maps: U-Net-Driven Acoustic Source Segmentation and Localization

Belman Jahir Rodriguez, Sergio F. Chevtchenko, Marcelo Herrera Martinez, Yeshwant Bethy, Saeed Afshar

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[174] arXiv:2508.00479 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：基于小波的时间-频率指纹特征提取方法在传统爱尔兰音乐中的应用

标题： Wavelet-Based Time-Frequency Fingerprinting for Feature Extraction of Traditional Irish Music

Noah Shore

评论：硕士论文。论文的重点是信号指纹识别的基础技术

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[175] arXiv:2508.00501 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： VR-托勒密：用于空间音频算法感知测试的虚拟环境

标题： VR-PTOLEMAIC: A Virtual Environment for the Perceptual Testing of Spatial Audio Algorithms

Paolo Ostan, Francesca Del Gaudio, Federico Miotello, Mirco Pezzoli, Fabio Antonacci

评论：将出现在EAA论坛声学2025上

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[176] arXiv:2508.00782 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]: 标题： SpA2V：利用空间听觉线索进行音频驱动的空间感知视频生成

标题： SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation

Kien T. Pham, Yingqing He, Yazhou Xing, Qifeng Chen, Long Chen

评论：第33届ACM多媒体会议（MM '25）

主题：图形学 (cs.GR) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[177] arXiv:2508.00929 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题：无障碍与社会包容性：针对盲人和低视力人群的音乐技术文献综述

标题： Accessibility and Social Inclusivity: A Literature Review of Music Technology for Blind and Low Vision People

Shumeng Zhang, Raul Masu, Mela Bettega, Mingming Fan

评论：被ASSETS'25——第27届国际ACM SIGACCESS计算机与无障碍会议接受

主题：人机交互 (cs.HC) ; 计算机与社会 (cs.CY) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[178] arXiv:2508.01181 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]: 标题：基准测试与弥合情感冲突以实现多模态情感推理

标题： Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning

Zhiyuan Han, Beier Zhu, Yanlong Xu, Peipei Song, Xun Yang

评论： ACM 多媒体 2025 口头代码： https://github.com/ZhiyuanHan-Aaron/MoSEAR 项目页面： https://zhiyuanhan-aaron.github.io/MoSEAR-page/

主题：人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[179] arXiv:2508.01644 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： DRKF：多模态情感识别中的解耦表示与知识融合

标题： DRKF: Decoupled Representations with Knowledge Fusion for Multimodal Emotion Recognition

Peiyuan Jiang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Yao Liu (School of Information and Software Engineering, University of Electronic Science and Technology of China), Qiao Liu (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Zongshun Zhang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Jiaye Yang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Lu Liu (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Daibing Yao (Yizhou Prison, Sichuan Province)

评论：发表于ACM多媒体2025。10页，4图

期刊参考：第33届ACM国际多媒体会议（MM '25）论文集，2025年10月27日至31日，都柏林，爱尔兰

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[180] arXiv:2508.01789 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题：将任何内容声音化：面向增强现实中的上下文感知声音交互

标题： Sonify Anything: Towards Context-Aware Sonic Interactions in AR

Laura Schütz, Sasan Matinfar, Ulrich Eck, Daniel Roth, Nassir Navab

主题：人机交互 (cs.HC) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[181] arXiv:2508.01847 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：测试时训练用于语音增强

标题： Test-Time Training for Speech Enhancement

Avishkar Behera, Riya Ann Easow, Venkatesh Parvathala, K. Sri Rama Murty

评论：发表于《Interspeech 2025》会议论文集

期刊参考：国际语音会议2025论文集，第2375-2379页

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[182] arXiv:2508.01915 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： EgoTrigger：面向全天节能智能眼镜的人类记忆增强的音频驱动图像捕捉

标题： EgoTrigger: Toward Audio-Driven Image Capture for Human Memory Enhancement in All-Day Energy-Efficient Smart Glasses

Akshay Paruchuri, Sinan Hersek, Lavisha Aggarwal, Qiao Yang, Xin Liu, Achin Kulshrestha, Andrea Colaco, Henry Fuchs, Ishan Chatterjee

评论： 15页，6图，6表。已接受为ISMAR 2025的TVCG期刊论文

主题：计算机视觉与模式识别 (cs.CV) ; 新兴技术 (cs.ET) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[183] arXiv:2508.02038 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题： Marco-Voice 技术报告

标题： Marco-Voice Technical Report

Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang

评论：技术报告。我们的代码和数据集分别在 https://github.com/AIDC-AI/Marco-Voice 和 https://huggingface.co/datasets/AIDC-AI/CSEMOTIONS 公开可用

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[184] arXiv:2508.02295 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：无参考对抗性性别混淆语音

标题： Reference-free Adversarial Sex Obfuscation in Speech

Yangyang Qu, Michele Panariello, Massimiliano Todisco, Nicholas Evans

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[185] arXiv:2508.02643 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题： CAK：从最小深度学习中产生的音频效果

标题： CAK: Emergent Audio Effects from Minimal Deep Learning

Austin Rockman

评论： 8页，3张图，代码和其他资源请访问 https://github.com/gloame-ai/cak-audio/tree/main/cak-audio

主题：机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[186] arXiv:2508.02741 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题： DeepGB-TB：一种用于快速可解释结核病筛查的风险平衡交叉注意力梯度提升卷积网络

标题： DeepGB-TB: A Risk-Balanced Cross-Attention Gradient-Boosted Convolutional Network for Rapid, Interpretable Tuberculosis Screening

Zhixiang Lu, Yulong Li, Feilong Tang, Zhengyong Jiang, Chong Li, Mian Zhou, Tenglong Li, Jionglong Su

主题：机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[187] arXiv:2508.02849 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： SecoustiCodec：跨模态对齐的流式单编码本语音编解码器

标题： SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec

Chunyu Qiang, Haoyu Wang, Cheng Gong, Tianrui Wang, Ruibo Fu, Tao Wang, Ruilong Chen, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Longbiao Wang, Jianwu Dang, Jianhua Tao

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[188] arXiv:2508.02905 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：它会是什么样的声音？面向室内场景的材料控制多模态声学轮廓生成

标题： How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Indoor Scenes

Mahnoor Fatima Saad, Ziad Al-Halah

评论：被ICCV 2025接收。项目页面：https://mahnoor-fatima-saad.github.io/m-capa.html

主题：计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[189] arXiv:2508.03065 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：快速移动声源算法

标题： Fast Algorithm for Moving Sound Source

Dong Yang

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[190] arXiv:2508.03457 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]: 标题： READ：实时高效的异步扩散用于音频驱动的说话头生成

标题： READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation

Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu

评论：项目页面：https://readportrait.github.io/READ/

主题：图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[191] arXiv:2508.04141 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：并行GPT：为零样本文本到语音协调声学和语义信息的独立性和相互依赖性

标题： Parallel GPT: Harmonizing the Independence and Interdependence of Acoustic and Semantic Information for Zero-Shot Text-to-Speech

Jingyuan Xing, Zhipeng Li, Jialong Mai, Xiaofen Xing, Xiangmin Xu

评论：提交至IEEE/ACM语音、音频和语言处理汇刊（TASLP）

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[192] arXiv:2508.04143 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：多语言语音深度伪造源追踪：首个基准测试

标题： Multilingual Source Tracing of Speech Deepfakes: A First Benchmark

Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen

评论：被Interspeech SPSC 2025 - 第五届语音通信安全与隐私研讨会（口头报告）接受

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[193] arXiv:2508.04161 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：基于时间与身份互补学习的音频辅助人脸视频修复

标题： Audio-Assisted Face Video Restoration with Temporal and Identity Complementary Learning

Yuqin Cao, Yixuan Gao, Wei Sun, Xiaohong Liu, Yulun Zhang, Xiongkuo Min

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[194] arXiv:2508.04179 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：语音合成的现状：一个人类欺骗率案例研究

标题： The State Of TTS: A Case Study with Human Fooling Rates

Praveen Srinivasa Varadhan, Sherry Thomas, Sai Teja M. S., Suvrat Bhooshan, Mitesh M. Khapra

评论：已被InterSpeech 2025接收

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[195] arXiv:2508.04230 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：面向可解释的情感识别：使用机器学习识别关键特征

标题： Towards interpretable emotion recognition: Identifying key features with machine learning

Yacouba Kaloga, Ina Kodrasi

期刊参考：在《2025年欧洲噪声论坛会议录》中，马尔加，西班牙，2025年6月

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[196] arXiv:2508.04273 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]: 标题：音频确实重要：用于视频时刻检索的重要性的多粒度融合

标题： Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval

Junan Lin, Daizong Liu, Xianke Chen, Xiaoye Qu, Xun Yang, Jixiang Zhu, Sanyuan Zhang, Jianfeng Dong

评论：被ACM MM 2025接收

主题：信息检索 (cs.IR) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[197] arXiv:2508.04283 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：一种多阶段低延迟增强系统用于助听器

标题： A Multi-stage Low-latency Enhancement System for Hearing Aids

Chengwei Ouyang, Kexin Fei, Haoshuai Zhou, Congxi Lu, Linkai Li

评论： 2页，1图，1表。已被ICASSP 2023接收

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[198] arXiv:2508.04333 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：基于HRTF定位线索的人形机器人双耳声音事件定位与检测神经网络

标题： Binaural Sound Event Localization and Detection Neural Network based on HRTF Localization Cues for Humanoid Robots

Gyeong-Tae Lee

评论： 200页

期刊参考：博士论文，KAIST，2024

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[199] arXiv:2508.04418 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：思考后再分割：一种针对指代音频-视觉分割的物体感知推理代理

标题： Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation

Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer

评论：项目页面：https://github.com/jasongief/TGS-Agent

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多智能体系统 (cs.MA) ; 多媒体 (cs.MM)
[200] arXiv:2508.04425 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：说话人验证的说话人文本因子分解嵌入文本适应

标题： Text adaptation for speaker verification with speaker-text factorized embeddings

Yexin Yang, Shuai Wang, Xun Gong, Yanmin Qian, Kai Yu

评论： ICASSP 2020

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)

总共 291 条目 : 1-50 51-100 101-150 151-200 201-250 251-291

显示最多 50 每页条目：较少 | 更多 | 所有

声音

2025年08月 的作者和标题

2025年08月的作者和标题