Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.SD

帮助 | 高级搜索

声音

最近提交的作者和标题

  • 2026年02月03日, 星期二
  • 2026年02月02日, 星期一
  • 2026年01月30日, 星期五
  • 2026年01月29日, 星期四
  • 2026年01月28日, 星期三

查看今天的 新的 变化

总共 105 条目 : 1-50 51-100 101-105
显示最多 50 每页条目: 较少 | 更多 | 所有

2026年02月03日, 星期二 (展示 29 之 29 条目 )

[1] arXiv:2601.23161 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: DIFFA-2:一种用于通用音频理解的实用扩散大语言模型
标题: DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding
Rajalaxmi Rajagopalan, Ritwik Giri, Zhiqiang Tang, Kyu Han
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL)
[2] arXiv:2601.22599 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 一种语义一致的数据集用于数据高效的基于查询的通用声音分离
标题: A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation
Arnab Das, Yassine El Kheir, Enes Erdem Erdogan, Feidi Kallel, Tim Polzehl, Sebastian Moeller
评论: 技术报告
主题: 声音 (cs.SD) ; 人机交互 (cs.HC)
[3] arXiv:2601.23066 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 面向语音深度伪造检测的音频大语言模型中的显式声学证据感知
标题: Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection
Jaejun Lee, Yoori Oh, Kyogu Lee
评论: 9页,4图
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[4] arXiv:2602.00594 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: Kanade:一种用于口语语言建模的简单解耦分词器
标题: Kanade: A Simple Disentangled Tokenizer for Spoken Language Modeling
Jaejun Lee, Yoori Oh, Kyogu Lee
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[5] arXiv:2602.00568 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 双视角预测扩散:通过频谱图图像协同实现轻量级语音增强
标题: Dual-View Predictive Diffusion: Lightweight Speech Enhancement via Spectrogram-Image Synergy
Fei Liu, Yang Ai
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[6] arXiv:2601.21386 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 理解弗雷歇语音距离用于合成语音质量评估
标题: Understanding Frechet Speech Distance for Synthetic Speech Quality Evaluation
Junya Koguchi, Tomoki Koriyama
评论: 被ICASSP 2026接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[7] arXiv:2601.23149 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 听觉即相信吗? 使用 SYAUDIO 评估和分析音频语言模型的奉承行为
标题: Hearing is Believing? Evaluating and Analyzing Audio Language Model Sycophancy with SYAUDIO
Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Yizhou Tan, Yiqiang Cai, Shengchen Li
主题: 声音 (cs.SD)
[8] arXiv:2601.22889 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: DiffuSpeech:通过统一的语音-文本扩散实现无声思考,有声回答
标题: DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion
Qingran Yang, Botao Zhao, Zuheng Kang, Xue Li, Yayun He, Chuhang Liu, Xulong Zhang, Xiaoyang Qu, Junqing Peng, Jianzong Wang
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[9] arXiv:2601.22873 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: EmoShift:增强情感感知语音合成的轻量级激活引导
标题: EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis
Mariëtte Olijslager, Seyed Sahand Mohammadi Ziabari, Ali Mohammed Mansoor Alsahag
评论: 激活控制;情绪感知文本转语音;语音合成;被ICASSP 2026接收
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[10] arXiv:2601.22390 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于有效能量掩码的对抗性逃避攻击用于说话人识别系统中的误分类
标题: An Effective Energy Mask-based Adversarial Evasion Attacks against Misclassification in Speaker Recognition Systems
Chengyuan Ma, Peng Jia, Hongyue Guo, Wenming Yang
主题: 声音 (cs.SD) ; 密码学与安全 (cs.CR) ; 音频与语音处理 (eess.AS)
[11] arXiv:2602.00648 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 0.275kbps高保真生成音频压缩
标题: High-Fidelity Generative Audio Compression at 0.275kbps
Zhili Nicholas Liang, Soyeon Caren Han, Qizhou Wang, Christopher Leckie
评论: 技术报告
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[12] arXiv:2602.00604 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: XACLE 挑战的 TMU 系统:使用 CLAP 伪标签训练大型音频语言模型
标题: The TMU System for the XACLE Challenge: Training Large Audio Language Models with CLAP Pseudo-Labels
Junmin Gong, Yulin Song, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo
评论: 3页;2图;2表;已被ICASSP 2026研讨会(SP重大挑战,GC-12:XACLE)接收
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[13] arXiv:2602.00560 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 编辑内容,保留声学特性:通过自洽性奖励实现不可感知的文本语音编辑
标题: Edit Content, Preserve Acoustics: Imperceptible Text-Based Speech Editing via Self-Consistency Rewards
Ilyass Moummad, Marius Miron, Lukas Rauch, David Robinson, Alexis Joly, Olivier Pietquin, Emmanuel Chemla, Matthieu Geist
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[14] arXiv:2602.01908 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: LipSody:具有增强韵律一致性的唇到语音合成
标题: LipSody: Lip-to-Speech Synthesis with Enhanced Prosody Consistency
Ayuto Tsutsumi, Kohei Tanaka, Sayaka Shiota
评论: 本文已被接受至ICASSP 2026
主题: 声音 (cs.SD)
[15] arXiv:2602.01879 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 仅凭面部输入的多说话人静音语音发声
标题: Speaking Without Sound: Multi-speaker Silent Speech Voicing with Facial Inputs Only
Ke Xue, Rongfei Fan, Kai Li, Shanping Yu, Puning Zhao, Jianping An
评论: 本文在ICASSP 2025上发表。
主题: 声音 (cs.SD)
[16] arXiv:2602.01727 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于投票的时频对齐和相关感知选择的音高估计
标题: Voting-based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection
Yong Ren, Jiangyan Yi, Jianhua Tao, Zhengqi Wen, Tao Wang
评论: 被ICASSP 2026接受
主题: 声音 (cs.SD)
[17] arXiv:2602.01547 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 注意力加权中心核对齐用于大型音频-语言模型中的知识蒸馏,应用于语音情感识别
标题: Attention-weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied to Speech Emotion Recognition
Xinting Liao, Ruinan Jin, Hanlin Yu, Deval Pandya, Xiaoxiao Li
评论: 被2026年IEEE国际声学、语音与信号处理会议(ICASSP 2026)接收
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[18] arXiv:2602.01060 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: TLDiffGAN:一种具有时间信息融合的潜在扩散-GAN框架用于异常声音检测
标题: TLDiffGAN: A Latent Diffusion-GAN Framework with Temporal Information Fusion for Anomalous Sound Detection
Alabi Ahmed, Vandana Janeja, Sanjay Purushotham
评论: 被ICASSP 2026接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[19] arXiv:2601.21463 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过先验增强的音频大语言模型统一语音编辑检测与内容定位
标题: Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs
Zhipeng Chen, Xinheng Wang, Lun Xie, Haijie Yuan, Hang Pan
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[20] arXiv:2601.23174 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 超越固定帧:动态字符对齐的语音分词
标题: Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization
Florentin Putz, Philipp Fortmann, Jan Frank, Christoph Haugwitz, Mario Kupnik, Matthias Hollick
评论: 18页,3图
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[21] arXiv:2601.22501 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: MIRRORTALK:通过解耦风格和分层运动控制打造个性化虚拟形象
标题: MIRRORTALK: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control
Yochai Yemini, Yoav Ellinson, Rami Ben-Ari, Sharon Gannot, Ethan Fetaya
评论: 被2026年IEEE国际声学、语音与信号处理会议(ICASSP 2026)接收
主题: 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD)
[22] arXiv:2601.22792 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: CALM:多说话人自动语音识别个性化联合上下文声学-语言建模
标题: CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR
Sheng-Lun Wei, Yu-Ling Liao, Yen-Hua Chang, Hen-Hsen Huang, Hsin-Hsi Chen
评论: 被IEEE ICASSP 2026接收
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[23] arXiv:2601.22783 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]
标题: 快速基于文本的野生动物观察检索的紧凑超立方体嵌入
标题: Compact Hypercube Embeddings for Fast Text-based Wildlife Observation Retrieval
Yang Xiao, Eun-Jung Holden, Ting Dang
主题: 信息检索 (cs.IR) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[24] arXiv:2601.22779 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于仅解码器的大型语言模型和延迟优化的流式语音识别
标题: Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization
Víctor Yeste, Rodrigo Rivas-Arévalo
评论: 被ICASSP 2026接收
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[25] arXiv:2602.00914 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 一种对话中情感识别的基线多模态方法
标题: A Baseline Multimodal Approach to Emotion Recognition in Conversations
Mohamed Saleh, Zahra Ahmadi
评论: 10页
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机与社会 (cs.CY) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[26] arXiv:2601.21260 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 音乐抄袭检测:问题表述和一种基于段的解决方案
标题: Music Plagiarism Detection: Problem Formulation and a Segment-based Solution
Hao Ma, Ruihao Jing, Shansong Liu, Cheng Gong, Chi Zhang, Xiao-Lei Zhang, Xuelong Li
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[27] arXiv:2602.02413 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 作为通用语音增强器的掩码自编码器
标题: Masked Autoencoders as Universal Speech Enhancer
Yang-Hao Zhou, Haitian Li, Rexar Lin, Heyan Huang, Jinxing Zhou, Changsen Yuan, Tian Lan, Ziqin Zhou, Yudong Li, Jiajun Xu, Jingyun Liao, Yi-Ming Cheng, Xuefeng Chen, Xian-Ling Mao, Yousheng Feng
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[28] arXiv:2602.02249 (交叉列表自 cs.NI) [中文pdf, pdf, html, 其他]
标题: 评估用于邻近智能设备之间自组织通信的声学数据传输方案
标题: Evaluating Acoustic Data Transmission Schemes for Ad-Hoc Communication Between Nearby Smart Devices
Zhijie Huang, Stephen McIntosh, Daisuke Saito, Nobuaki Minematsu
评论: 31页,9幅图表,数据集可在https://doi.org/10281/zenodo.17661991获取
期刊参考: ACM 互联网事物汇刊 7,1,文章 8(2026 年 2 月),32 页
主题: 网络与互联网架构 (cs.NI) ; 声音 (cs.SD)
[29] arXiv:2602.00295 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 多说话人对话音频深度伪造:分类法、数据集和初步研究
标题: Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study
Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci
评论: 这项工作是在2025年IEEE国际数据挖掘会议,ICDM 2025上发表的,时间是2025年11月12日至15日,地点是美国华盛顿特区。
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)

2026年02月02日, 星期一 (展示 17 之 17 条目 )

[30] arXiv:2602.00744 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: ACE-Step 1.5:突破开源音乐生成的边界
标题: ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation
Jiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin
主题: 声音 (cs.SD)
[31] arXiv:2602.01363 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 因果解耦对比学习用于多语言说话人嵌入
标题: Causally Disentangled Contrastive Learning for Multilingual Speaker Embeddings
Junchi Yao, Lokranjan Lakshmikanthan, Annie Zhao, Danielle Zhao, Shu Yang, Zikang Ding, Di Wang, Lijie Hu
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[32] arXiv:2602.00269 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: VoxServe:面向语音语言模型的流式中心服务系统
标题: VoxServe: Streaming-Centric Serving System for Speech Language Models
Xiaoxuan Guo, Yuankun Xie, Haonan Cheng, Jiayi Zhou, Jian Liu, Hengyan Huang, Long Ye, Qin Zhang
评论: 代码可在 https://github.com/vox-serve/vox-serve 获取
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 分布式、并行与集群计算 (cs.DC) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[33] arXiv:2602.01008 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 适应它重要的地方:在低资源语言中高效多语种语音识别的深度感知适应
标题: Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages
Deepak Kumar, Emmanouil Karystinaios, Gerhard Widmer, Markus Schedl
评论: 13页
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[34] arXiv:2602.01030 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 听者耳朵中的偏见:在语言、人口和位置变化中评估音频语言模型的敏感性
标题: Bias in the Ear of the Listener: Assessing Sensitivity in Audio Language Models Across Linguistic, Demographic, and Positional Variations
Yong Ren, Jingbei Li, Haiyang Sun, Yujie Chen, Cheng Yi, Yechang Huang, Hao Gu, Ye Bai, Xuerui Yang
评论: 被接受为EACL 2026的长文论文
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[35] arXiv:2601.22161 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 注意并不足以进行情感识别:在EAV数据集上领域特征优于Transformer
标题: Attention Isn't All You Need for Emotion Recognition:Domain Features Outperform Transformers on the EAV Dataset
Kai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu
评论: 2张图,10页
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[36] arXiv:2602.01793 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: ParaGSE:基于组向量量化神经语音编解码器的并行生成语音增强
标题: ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-based Neural Speech Codec
Seungu Han, Sungho Lee, Kyogu Lee
评论: 被ICASSP 2026接收
主题: 声音 (cs.SD)
[37] arXiv:2602.01645 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过生成流形扰动的音乐扩散模型成员推理攻击
标题: Membership Inference Attack Against Music Diffusion Models via Generative Manifold Perturbation
Chanwoo Park, Chanwoo Kim
主题: 声音 (cs.SD)
[38] arXiv:2601.22661 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过平均延续对数概率评估和奖励表达性角色扮演TTS的LALMs
标题: Evaluating and Rewarding LALMs for Expressive Role-Play TTS via Mean Continuation Log-Probability
Luca Della Libera, Cem Subakan, Mirco Ravanelli
主题: 声音 (cs.SD)
[39] arXiv:2601.22176 (交叉列表自 math.HO) [中文pdf, pdf, html, 其他]
标题: 让·巴拉克的繁殖系列:数学术语中的研究与分类
标题: Proliferating series by Jean Barraqué: a study and classification in mathematical terms
Yuxuan Lou, Ziming Wu, Yaochen Wang, Yong Liu, Yingxuan Ren, Fuming Lai, Shaobing Lian, Jie Tang, Yang You
评论: 28页,8图
主题: 历史与概述 (math.HO) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[40] arXiv:2602.00443 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: RVCBench:跨现代音频生成模型的语音克隆鲁棒性基准测试
标题: RVCBench: Benchmarking the Robustness of Voice Cloning Across Modern Audio Generation Models
Li Zhou, Hao Jiang, Junjie Li, Tianrui Wang, Haizhou Li
评论: 40页,12图
主题: 声音 (cs.SD) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[41] arXiv:2602.00607 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: MTAVG-Bench:一种用于评估多说话人对话中心的音视频生成的全面基准
标题: MTAVG-Bench: A Comprehensive Benchmark for Evaluating Multi-Talker Dialogue-Centric Audio-Video Generation
Muhammad Shakeel, Yosuke Fukumoto, Chikara Maeda, Chyi-Jiunn Lin, Shinji Watanabe
主题: 多媒体 (cs.MM) ; 声音 (cs.SD)
[42] arXiv:2601.21925 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过段感知学习超越转换的语音深度伪造定位
标题: Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning
Ilyass Moummad, Marius Miron, David Robinson, Kawtar Zaher, Hervé Goëau, Olivier Pietquin, Pierre Bonnet, Emmanuel Chemla, Matthieu Geist, Alexis Joly
主题: 声音 (cs.SD)
[43] arXiv:2602.00189 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: LPIPS-AttnWav2Lip:野外环境下通用的音频驱动的唇部同步方法
标题: LPIPS-AttnWav2Lip: Generic Audio-Driven lip synchronization for Talking Head Generation in the Wild
Genshun Wan, Wenhui Zhang, Jing-Xuan Zhang, Shifu Xiong, Jianqing Gao, Zhongfu Ye
评论: 这篇论文已被爱思唯尔的《语音通信》期刊接受。正式发表链接:https://doi.org/10.1016/j.specom.2023.103028 论文的代码可在以下链接获取:https://github.com/FelixChan9527/LPIPS-AttnWav2Lip
期刊参考: 语音通信 2023
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[44] arXiv:2602.00701 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 跨模态二值注意力:一种用于音视频学习的节能融合框架
标题: Cross-Modal Binary Attention: An Energy-Efficient Fusion Framework for Audio-Visual Learning
Renjie Lu, Xulong Zhang, Xiaoyang Qu, Jianzong Wang, Shangfei Wang
主题: 多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[45] arXiv:2602.00681 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过文本蒸馏实现无需音频-图像对的音频到图像鸟类物种检索
标题: Audio-to-Image Bird Species Retrieval without Audio-Image Pairs via Text Distillation
Isabel Tardón, Pablo Martín-Santamaría
主题: 声音 (cs.SD) ; 信息检索 (cs.IR) ; 机器学习 (cs.LG)
[46] arXiv:2601.22764 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 预训练大语言模型在符号音乐中能走多远? 监督和基于偏好的适应的对照比较
标题: How Far Can Pretrained LLMs Go in Symbolic Music? Controlled Comparisons of Supervised and Preference-based Adaptation
Anmol Guragain
评论: 被NLP4MusA 2026接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)

2026年01月30日, 星期五 (展示 首先 22 之 4 条目 )

[47] arXiv:2601.22480 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 重新思考语音增强中的语音表示聚合:语音学互信息视角
标题: Rethinking Speech Representation Aggregation in Speech Enhancement: A Phonetic Mutual Information Perspective
Yuchen Mao, Wen Huang, Yanmin Qian
评论: 被ICASSP 2026接收
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[48] arXiv:2602.01394 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: SSNAPS:具有扩散逆采样的音频-视觉语音和背景噪声分离
标题: SSNAPS: Audio-Visual Separation of Speech and Background Noise with Diffusion Inverse Sampling
Jun Xue, Yi Chai, Yanzhen Ren, Jinshen He, Zhiqiang Tang, Zhuolin Yi, Yihuan Huang, Yuankun Xie, Yujie Chen
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[49] arXiv:2602.01032 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: HierCon:用于音频深度伪造检测的分层对比注意力
标题: HierCon: Hierarchical Contrastive Attention for Audio Deepfake Detection
June-Woo Kim, Dhruv Agarwal, Federica Cerina
评论: 《网络会议2026年论文集》(WWW'26),简短轨道
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[50] arXiv:2602.02286 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: DFKI语音系统用于WildSpoof挑战:一种鲁棒的SASV野外框架
标题: DFKI-Speech System for WildSpoof Challenge: A robust framework for SASV In-the-Wild
Seonghyeon Go, Yumin Kim
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
总共 105 条目 : 1-50 51-100 101-105
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号