Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.SD

帮助 | 高级搜索

声音

2025年08月 的作者和标题

总共 291 条目 : 1-50 51-100 101-150 151-200 201-250 251-291
显示最多 50 每页条目: 较少 | 更多 | 所有
[151] arXiv:2508.18907 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SegReConcat:一种语音匿名化攻击的数据增强方法
标题: SegReConcat: A Data Augmentation Method for Voice Anonymization Attack
Ridwan Arefeen, Xiaoxiao Miao, Rong Tong, Aik Beng Ng, Simon See
评论: 论文已被APCIPA ASC 2025接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[152] arXiv:2508.19251 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MuSpike:具有脉冲神经网络的符号音乐生成基准和评估框架
标题: MuSpike: A Benchmark and Evaluation Framework for Symbolic Music Generation with Spiking Neural Networks
Qian Liang, Menghaoran Tang, Yi Zeng
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[153] arXiv:2508.19262 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于节拍的MIDI表演节奏量化
标题: Beat-Based Rhythm Quantization of MIDI Performances
Maximilian Wachter, Sebastian Murgul, Michael Heizmann
评论: 被接收为2025年第一届AES国际人工智能与机器学习音频会议(AIMLA LBDP)的最新演示论文。
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[154] arXiv:2508.19308 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 婴儿在嘈杂环境中使用蓝图可分离卷积和时频循环神经网络的哭声检测
标题: Infant Cry Detection In Noisy Environment Using Blueprint Separable Convolutions and Time-Frequency Recurrent Neural Network
Haolin Yu, Yanxiong Li
主题: 声音 (cs.SD)
[155] arXiv:2508.19514 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MQAD:用于训练音乐大语言模型的大规模问答数据集
标题: MQAD: A Large-Scale Question Answering Dataset for Training Music Large Language Models
Zhihao Ouyang, Ju-Chiang Wang, Daiyu Zhang, Bin Chen, Shangjie Li, Quan Lin
主题: 声音 (cs.SD)
[156] arXiv:2508.19603 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: CompLex:由自主代理构建的自动音乐生成音乐理论词典
标题: CompLex: Music Theory Lexicon Constructed by Autonomous Agents for Automatic Music Generation
Zhejing Hu, Yan Liu, Gong Chen, Bruce X.B. Yu
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[157] arXiv:2508.19876 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: IRMA数据集:伊朗古典音乐的结构化音频-MIDI语料库
标题: The IRMA Dataset: A Structured Audio-MIDI Corpus for Iranian Classical Music
Sepideh Shafiei, Shapour Hakam
主题: 声音 (cs.SD) ; 数字图书馆 (cs.DL)
[158] arXiv:2508.20513 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MoTAS:从TTS增强语音中基于Moe的特征选择用于增强的多模态阿尔茨海默病早期筛查
标题: MoTAS: MoE-Guided Feature Selection from TTS-Augmented Speech for Enhanced Multimodal Alzheimer's Early Screening
Yongqi Shao, Binxin Mei, Cong Tan, Hong Huo, Tao Fang
主题: 声音 (cs.SD) ; 多媒体 (cs.MM)
[159] arXiv:2508.20584 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 更准确的语音增强条件流匹配流畅化
标题: Flowing Straighter with Conditional Flow Matching for Accurate Speech Enhancement
Mattias Cross, Anton Ragni
评论: 预印本,已接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[160] arXiv:2508.20665 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 阿马迪乌斯:具有双向属性建模的自回归符号音乐模型
标题: Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song
评论: 正在审核中
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[161] arXiv:2508.20717 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于语音的多种临床状况检测的统一多任务学习
标题: Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions
Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[162] arXiv:2508.20796 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过熵感知评分选择的语音情感识别
标题: Speech Emotion Recognition via Entropy-Aware Score Selection
ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao
评论: 论文已被APCIPA ASC 2025接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[163] arXiv:2508.20869 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: OLMoASR:用于训练鲁棒语音识别模型的开放模型和数据
标题: OLMoASR: Open Models and Data for Training Robust Speech Recognition Models
Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt
评论: 17页,7图
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[164] arXiv:2508.20885 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SincQDR-VAD:一种利用可学习滤波器和排名感知优化的噪声鲁棒语音活动检测框架
标题: SincQDR-VAD: A Noise-Robust Voice Activity Detection Framework Leveraging Learnable Filters and Ranking-Aware Optimization
Chien-Chun Wang, En-Lun Yu, Jeih-Weih Hung, Shih-Chieh Huang, Berlin Chen
评论: 被IEEE ASRU 2025接收
主题: 声音 (cs.SD)
[165] arXiv:2508.20914 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过特征蒸馏从双耳音频中学习鲁棒的空间表示
标题: Learning Robust Spatial Representations from Binaural Audio through Feature Distillation
Holger Severin Bovbjerg (1), Jan Østergaard (1), Jesper Jensen (1, 2), Shinji Watanabe (3), Zheng-Hua Tan ((1) Aalborg University (2) Eriksholm Research Centre, (3) Carnegie Mellon University)
评论: 将出现在2025年10月12日至15日在美国太浩举行的WASPAA会议论文集上。版权所有(c)2025 IEEE。5页,2图,2表。
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[166] arXiv:2508.20976 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: WoW-Bench:通过海洋哺乳动物叫声评估音频-语言模型中的细粒度声学感知
标题: WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations
Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim
评论: 预印本。项目页面:https://jaeyeonkim99.github.io/wow_bench/
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[167] arXiv:2508.21153 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: WaveLLDM:一种轻量级潜在扩散模型的设计与开发用于语音增强与恢复
标题: WaveLLDM: Design and Development of a Lightweight Latent Diffusion Model for Speech Enhancement and Restoration
Kevin Putra Santoso, Rizka Wakhidatus Sholikah, Raden Venantius Hari Ginardi
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[168] arXiv:2508.21167 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: RARR:通过采集近表面音频进行鲁棒的现实世界活动识别
标题: RARR : Robust Real-World Activity Recognition with Vibration by Scavenging Near-Surface Audio Online
Dong Yoon Lee, Alyssa Weakley, Hui Wei, Blake Brown, Keyana Carrion, Shijia Pan
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[169] arXiv:2508.21243 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 全频段时间补丁与结构化掩码用于增强音频分类
标题: Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification
Aditya Makineni, Baocheng Geng, Qing Tian
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[170] arXiv:2508.21407 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: DRASP:一种用于自动MOS预测的双分辨率注意统计池化框架
标题: DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction
Cheng-Yeh Yang, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen
评论: 被APSIPA ASC 2025接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[171] arXiv:2508.00160 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: DeformTune:为非音乐家设计的可变形XAI音乐原型
标题: DeformTune: A Deformable XAI Music Prototype for Non-Musicians
Ziqing Xu, Nick Bryan-Kinns
评论: 在《2025年解释性人工智能与艺术研讨会论文集》(XAIxArts 2025)arXiv:2406.14485
主题: 人机交互 (cs.HC) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[172] arXiv:2508.00240 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于波形域神经网络的Ambisonics超分辨率
标题: Ambisonics Super-Resolution Using A Waveform-Domain Neural Network
Ismael Nawfal, Symeon Delikaris Manias, Mehrez Souden, Juha Merimaa, Joshua Atkins, Elisabeth McMullin, Shadi Pirhosseinloo, Daniel Phillips
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[173] arXiv:2508.00307 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 波束成形的360°声音图:U-Net驱动的声源分割与定位
标题: Beamformed 360° Sound Maps: U-Net-Driven Acoustic Source Segmentation and Localization
Belman Jahir Rodriguez, Sergio F. Chevtchenko, Marcelo Herrera Martinez, Yeshwant Bethy, Saeed Afshar
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[174] arXiv:2508.00479 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 基于小波的时间-频率指纹特征提取方法在传统爱尔兰音乐中的应用
标题: Wavelet-Based Time-Frequency Fingerprinting for Feature Extraction of Traditional Irish Music
Noah Shore
评论: 硕士论文。论文的重点是信号指纹识别的基础技术
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[175] arXiv:2508.00501 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: VR-托勒密:用于空间音频算法感知测试的虚拟环境
标题: VR-PTOLEMAIC: A Virtual Environment for the Perceptual Testing of Spatial Audio Algorithms
Paolo Ostan, Francesca Del Gaudio, Federico Miotello, Mirco Pezzoli, Fabio Antonacci
评论: 将出现在EAA论坛声学2025上
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[176] arXiv:2508.00782 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: SpA2V:利用空间听觉线索进行音频驱动的空间感知视频生成
标题: SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation
Kien T. Pham, Yingqing He, Yazhou Xing, Qifeng Chen, Long Chen
评论: 第33届ACM多媒体会议(MM '25)
主题: 图形学 (cs.GR) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[177] arXiv:2508.00929 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: 无障碍与社会包容性:针对盲人和低视力人群的音乐技术文献综述
标题: Accessibility and Social Inclusivity: A Literature Review of Music Technology for Blind and Low Vision People
Shumeng Zhang, Raul Masu, Mela Bettega, Mingming Fan
评论: 被ASSETS'25——第27届国际ACM SIGACCESS计算机与无障碍会议接受
主题: 人机交互 (cs.HC) ; 计算机与社会 (cs.CY) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[178] arXiv:2508.01181 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]
标题: 基准测试与弥合情感冲突以实现多模态情感推理
标题: Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning
Zhiyuan Han, Beier Zhu, Yanlong Xu, Peipei Song, Xun Yang
评论: ACM 多媒体 2025 口头代码: https://github.com/ZhiyuanHan-Aaron/MoSEAR 项目页面: https://zhiyuanhan-aaron.github.io/MoSEAR-page/
主题: 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[179] arXiv:2508.01644 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: DRKF:多模态情感识别中的解耦表示与知识融合
标题: DRKF: Decoupled Representations with Knowledge Fusion for Multimodal Emotion Recognition
Peiyuan Jiang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Yao Liu (School of Information and Software Engineering, University of Electronic Science and Technology of China), Qiao Liu (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Zongshun Zhang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Jiaye Yang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Lu Liu (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Daibing Yao (Yizhou Prison, Sichuan Province)
评论: 发表于ACM多媒体2025。10页,4图
期刊参考: 第33届ACM国际多媒体会议(MM '25)论文集,2025年10月27日至31日,都柏林,爱尔兰
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[180] arXiv:2508.01789 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: 将任何内容声音化:面向增强现实中的上下文感知声音交互
标题: Sonify Anything: Towards Context-Aware Sonic Interactions in AR
Laura Schütz, Sasan Matinfar, Ulrich Eck, Daniel Roth, Nassir Navab
主题: 人机交互 (cs.HC) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[181] arXiv:2508.01847 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 测试时训练用于语音增强
标题: Test-Time Training for Speech Enhancement
Avishkar Behera, Riya Ann Easow, Venkatesh Parvathala, K. Sri Rama Murty
评论: 发表于《Interspeech 2025》会议论文集
期刊参考: 国际语音会议2025论文集,第2375-2379页
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[182] arXiv:2508.01915 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: EgoTrigger:面向全天节能智能眼镜的人类记忆增强的音频驱动图像捕捉
标题: EgoTrigger: Toward Audio-Driven Image Capture for Human Memory Enhancement in All-Day Energy-Efficient Smart Glasses
Akshay Paruchuri, Sinan Hersek, Lavisha Aggarwal, Qiao Yang, Xin Liu, Achin Kulshrestha, Andrea Colaco, Henry Fuchs, Ishan Chatterjee
评论: 15页,6图,6表。已接受为ISMAR 2025的TVCG期刊论文
主题: 计算机视觉与模式识别 (cs.CV) ; 新兴技术 (cs.ET) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[183] arXiv:2508.02038 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: Marco-Voice 技术报告
标题: Marco-Voice Technical Report
Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang
评论: 技术报告。我们的代码和数据集分别在 https://github.com/AIDC-AI/Marco-Voice 和 https://huggingface.co/datasets/AIDC-AI/CSEMOTIONS 公开可用
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[184] arXiv:2508.02295 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 无参考对抗性性别混淆语音
标题: Reference-free Adversarial Sex Obfuscation in Speech
Yangyang Qu, Michele Panariello, Massimiliano Todisco, Nicholas Evans
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[185] arXiv:2508.02643 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: CAK:从最小深度学习中产生的音频效果
标题: CAK: Emergent Audio Effects from Minimal Deep Learning
Austin Rockman
评论: 8页,3张图,代码和其他资源请访问 https://github.com/gloame-ai/cak-audio/tree/main/cak-audio
主题: 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[186] arXiv:2508.02741 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: DeepGB-TB:一种用于快速可解释结核病筛查的风险平衡交叉注意力梯度提升卷积网络
标题: DeepGB-TB: A Risk-Balanced Cross-Attention Gradient-Boosted Convolutional Network for Rapid, Interpretable Tuberculosis Screening
Zhixiang Lu, Yulong Li, Feilong Tang, Zhengyong Jiang, Chong Li, Mian Zhou, Tenglong Li, Jionglong Su
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[187] arXiv:2508.02849 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: SecoustiCodec:跨模态对齐的流式单编码本语音编解码器
标题: SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec
Chunyu Qiang, Haoyu Wang, Cheng Gong, Tianrui Wang, Ruibo Fu, Tao Wang, Ruilong Chen, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Longbiao Wang, Jianwu Dang, Jianhua Tao
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[188] arXiv:2508.02905 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 它会是什么样的声音? 面向室内场景的材料控制多模态声学轮廓生成
标题: How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Indoor Scenes
Mahnoor Fatima Saad, Ziad Al-Halah
评论: 被ICCV 2025接收。项目页面:https://mahnoor-fatima-saad.github.io/m-capa.html
主题: 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[189] arXiv:2508.03065 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 快速移动声源算法
标题: Fast Algorithm for Moving Sound Source
Dong Yang
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[190] arXiv:2508.03457 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: READ:实时高效的异步扩散用于音频驱动的说话头生成
标题: READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation
Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu
评论: 项目页面:https://readportrait.github.io/READ/
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[191] arXiv:2508.04141 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 并行GPT:为零样本文本到语音协调声学和语义信息的独立性和相互依赖性
标题: Parallel GPT: Harmonizing the Independence and Interdependence of Acoustic and Semantic Information for Zero-Shot Text-to-Speech
Jingyuan Xing, Zhipeng Li, Jialong Mai, Xiaofen Xing, Xiangmin Xu
评论: 提交至IEEE/ACM语音、音频和语言处理汇刊(TASLP)
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[192] arXiv:2508.04143 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 多语言语音深度伪造源追踪:首个基准测试
标题: Multilingual Source Tracing of Speech Deepfakes: A First Benchmark
Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen
评论: 被Interspeech SPSC 2025 - 第五届语音通信安全与隐私研讨会(口头报告)接受
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[193] arXiv:2508.04161 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 基于时间与身份互补学习的音频辅助人脸视频修复
标题: Audio-Assisted Face Video Restoration with Temporal and Identity Complementary Learning
Yuqin Cao, Yixuan Gao, Wei Sun, Xiaohong Liu, Yulun Zhang, Xiongkuo Min
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[194] arXiv:2508.04179 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 语音合成的现状:一个人类欺骗率案例研究
标题: The State Of TTS: A Case Study with Human Fooling Rates
Praveen Srinivasa Varadhan, Sherry Thomas, Sai Teja M. S., Suvrat Bhooshan, Mitesh M. Khapra
评论: 已被InterSpeech 2025接收
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[195] arXiv:2508.04230 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 面向可解释的情感识别:使用机器学习识别关键特征
标题: Towards interpretable emotion recognition: Identifying key features with machine learning
Yacouba Kaloga, Ina Kodrasi
期刊参考: 在《2025年欧洲噪声论坛会议录》中,马尔加,西班牙,2025年6月
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[196] arXiv:2508.04273 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]
标题: 音频确实重要:用于视频时刻检索的重要性的多粒度融合
标题: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
Junan Lin, Daizong Liu, Xianke Chen, Xiaoye Qu, Xun Yang, Jixiang Zhu, Sanyuan Zhang, Jianfeng Dong
评论: 被ACM MM 2025接收
主题: 信息检索 (cs.IR) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[197] arXiv:2508.04283 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 一种多阶段低延迟增强系统用于助听器
标题: A Multi-stage Low-latency Enhancement System for Hearing Aids
Chengwei Ouyang, Kexin Fei, Haoshuai Zhou, Congxi Lu, Linkai Li
评论: 2页,1图,1表。已被ICASSP 2023接收
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[198] arXiv:2508.04333 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 基于HRTF定位线索的人形机器人双耳声音事件定位与检测神经网络
标题: Binaural Sound Event Localization and Detection Neural Network based on HRTF Localization Cues for Humanoid Robots
Gyeong-Tae Lee
评论: 200页
期刊参考: 博士论文,KAIST,2024
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[199] arXiv:2508.04418 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 思考后再分割:一种针对指代音频-视觉分割的物体感知推理代理
标题: Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation
Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer
评论: 项目页面:https://github.com/jasongief/TGS-Agent
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多智能体系统 (cs.MA) ; 多媒体 (cs.MM)
[200] arXiv:2508.04425 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 说话人验证的说话人文本因子分解嵌入文本适应
标题: Text adaptation for speaker verification with speaker-text factorized embeddings
Yexin Yang, Shuai Wang, Xun Gong, Yanmin Qian, Kai Yu
评论: ICASSP 2020
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
总共 291 条目 : 1-50 51-100 101-150 151-200 201-250 251-291
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号