声音

最近提交的作者和标题

查看今天的新的变化

总共 105 条目 : 1-50 51-100 101-105

显示最多 50 每页条目：较少 | 更多 | 所有

[1] arXiv:2601.23161 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： DIFFA-2：一种用于通用音频理解的实用扩散大语言模型

标题： DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Rajalaxmi Rajagopalan, Ritwik Giri, Zhiqiang Tang, Kyu Han

主题：声音 (cs.SD) ; 计算与语言 (cs.CL)
[2] arXiv:2601.22599 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：一种语义一致的数据集用于数据高效的基于查询的通用声音分离

标题： A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arnab Das, Yassine El Kheir, Enes Erdem Erdogan, Feidi Kallel, Tim Polzehl, Sebastian Moeller

评论：技术报告

主题：声音 (cs.SD) ; 人机交互 (cs.HC)
[3] arXiv:2601.23066 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：面向语音深度伪造检测的音频大语言模型中的显式声学证据感知

标题： Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection

Jaejun Lee, Yoori Oh, Kyogu Lee

评论： 9页，4图

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[4] arXiv:2602.00594 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题： Kanade：一种用于口语语言建模的简单解耦分词器

标题： Kanade: A Simple Disentangled Tokenizer for Spoken Language Modeling

Jaejun Lee, Yoori Oh, Kyogu Lee

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[5] arXiv:2602.00568 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：双视角预测扩散：通过频谱图图像协同实现轻量级语音增强

标题： Dual-View Predictive Diffusion: Lightweight Speech Enhancement via Spectrogram-Image Synergy

Fei Liu, Yang Ai

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[6] arXiv:2601.21386 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：理解弗雷歇语音距离用于合成语音质量评估

标题： Understanding Frechet Speech Distance for Synthetic Speech Quality Evaluation

Junya Koguchi, Tomoki Koriyama

评论：被ICASSP 2026接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[7] arXiv:2601.23149 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：听觉即相信吗？使用 SYAUDIO 评估和分析音频语言模型的奉承行为

标题： Hearing is Believing? Evaluating and Analyzing Audio Language Model Sycophancy with SYAUDIO

Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Yizhou Tan, Yiqiang Cai, Shengchen Li

主题：声音 (cs.SD)
[8] arXiv:2601.22889 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题： DiffuSpeech：通过统一的语音-文本扩散实现无声思考，有声回答

标题： DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion

Qingran Yang, Botao Zhao, Zuheng Kang, Xue Li, Yayun He, Chuhang Liu, Xulong Zhang, Xiaoyang Qu, Junqing Peng, Jianzong Wang

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[9] arXiv:2601.22873 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： EmoShift：增强情感感知语音合成的轻量级激活引导

标题： EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

Mariëtte Olijslager, Seyed Sahand Mohammadi Ziabari, Ali Mohammed Mansoor Alsahag

评论：激活控制；情绪感知文本转语音；语音合成；被ICASSP 2026接收

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[10] arXiv:2601.22390 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于有效能量掩码的对抗性逃避攻击用于说话人识别系统中的误分类

标题： An Effective Energy Mask-based Adversarial Evasion Attacks against Misclassification in Speaker Recognition Systems

Chengyuan Ma, Peng Jia, Hongyue Guo, Wenming Yang

主题：声音 (cs.SD) ; 密码学与安全 (cs.CR) ; 音频与语音处理 (eess.AS)
[11] arXiv:2602.00648 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： 0.275kbps高保真生成音频压缩

标题： High-Fidelity Generative Audio Compression at 0.275kbps

Zhili Nicholas Liang, Soyeon Caren Han, Qizhou Wang, Christopher Leckie

评论：技术报告

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[12] arXiv:2602.00604 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： XACLE 挑战的 TMU 系统：使用 CLAP 伪标签训练大型音频语言模型

标题： The TMU System for the XACLE Challenge: Training Large Audio Language Models with CLAP Pseudo-Labels

Junmin Gong, Yulin Song, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo

评论： 3页；2图；2表；已被ICASSP 2026研讨会（SP重大挑战，GC-12：XACLE）接收

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[13] arXiv:2602.00560 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：编辑内容，保留声学特性：通过自洽性奖励实现不可感知的文本语音编辑

标题： Edit Content, Preserve Acoustics: Imperceptible Text-Based Speech Editing via Self-Consistency Rewards

Ilyass Moummad, Marius Miron, Lukas Rauch, David Robinson, Alexis Joly, Olivier Pietquin, Emmanuel Chemla, Matthieu Geist

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[14] arXiv:2602.01908 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： LipSody：具有增强韵律一致性的唇到语音合成

标题： LipSody: Lip-to-Speech Synthesis with Enhanced Prosody Consistency

Ayuto Tsutsumi, Kohei Tanaka, Sayaka Shiota

评论：本文已被接受至ICASSP 2026

主题：声音 (cs.SD)
[15] arXiv:2602.01879 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：仅凭面部输入的多说话人静音语音发声

标题： Speaking Without Sound: Multi-speaker Silent Speech Voicing with Facial Inputs Only

Ke Xue, Rongfei Fan, Kai Li, Shanping Yu, Puning Zhao, Jianping An

评论：本文在ICASSP 2025上发表。

主题：声音 (cs.SD)
[16] arXiv:2602.01727 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于投票的时频对齐和相关感知选择的音高估计

标题： Voting-based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection

Yong Ren, Jiangyan Yi, Jianhua Tao, Zhengqi Wen, Tao Wang

评论：被ICASSP 2026接受

主题：声音 (cs.SD)
[17] arXiv:2602.01547 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：注意力加权中心核对齐用于大型音频-语言模型中的知识蒸馏，应用于语音情感识别

标题： Attention-weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied to Speech Emotion Recognition

Xinting Liao, Ruinan Jin, Hanlin Yu, Deval Pandya, Xiaoxiao Li

评论：被2026年IEEE国际声学、语音与信号处理会议（ICASSP 2026）接收

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[18] arXiv:2602.01060 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： TLDiffGAN：一种具有时间信息融合的潜在扩散-GAN框架用于异常声音检测

标题： TLDiffGAN: A Latent Diffusion-GAN Framework with Temporal Information Fusion for Anomalous Sound Detection

Alabi Ahmed, Vandana Janeja, Sanjay Purushotham

评论：被ICASSP 2026接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[19] arXiv:2601.21463 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过先验增强的音频大语言模型统一语音编辑检测与内容定位

标题： Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Zhipeng Chen, Xinheng Wang, Lun Xie, Haijie Yuan, Hang Pan

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[20] arXiv:2601.23174 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题：超越固定帧：动态字符对齐的语音分词

标题： Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

Florentin Putz, Philipp Fortmann, Jan Frank, Christoph Haugwitz, Mario Kupnik, Matthias Hollick

评论： 18页，3图

主题：机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[21] arXiv:2601.22501 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： MIRRORTALK：通过解耦风格和分层运动控制打造个性化虚拟形象

标题： MIRRORTALK: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control

Yochai Yemini, Yoav Ellinson, Rami Ben-Ari, Sharon Gannot, Ethan Fetaya

评论：被2026年IEEE国际声学、语音与信号处理会议（ICASSP 2026）接收

主题：计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD)
[22] arXiv:2601.22792 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： CALM：多说话人自动语音识别个性化联合上下文声学-语言建模

标题： CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

Sheng-Lun Wei, Yu-Ling Liao, Yen-Hua Chang, Hen-Hsen Huang, Hsin-Hsi Chen

评论：被IEEE ICASSP 2026接收

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[23] arXiv:2601.22783 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]: 标题：快速基于文本的野生动物观察检索的紧凑超立方体嵌入

标题： Compact Hypercube Embeddings for Fast Text-based Wildlife Observation Retrieval

Yang Xiao, Eun-Jung Holden, Ting Dang

主题：信息检索 (cs.IR) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[24] arXiv:2601.22779 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于仅解码器的大型语言模型和延迟优化的流式语音识别

标题： Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization

Víctor Yeste, Rodrigo Rivas-Arévalo

评论：被ICASSP 2026接收

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[25] arXiv:2602.00914 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：一种对话中情感识别的基线多模态方法

标题： A Baseline Multimodal Approach to Emotion Recognition in Conversations

Mohamed Saleh, Zahra Ahmadi

评论： 10页

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机与社会 (cs.CY) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[26] arXiv:2601.21260 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：音乐抄袭检测：问题表述和一种基于段的解决方案

标题： Music Plagiarism Detection: Problem Formulation and a Segment-based Solution

Hao Ma, Ruihao Jing, Shansong Liu, Cheng Gong, Chi Zhang, Xiao-Lei Zhang, Xuelong Li

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[27] arXiv:2602.02413 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：作为通用语音增强器的掩码自编码器

标题： Masked Autoencoders as Universal Speech Enhancer

Yang-Hao Zhou, Haitian Li, Rexar Lin, Heyan Huang, Jinxing Zhou, Changsen Yuan, Tian Lan, Ziqin Zhou, Yudong Li, Jiajun Xu, Jingyun Liao, Yi-Ming Cheng, Xuefeng Chen, Xian-Ling Mao, Yousheng Feng

主题：声音 (cs.SD) ; 机器学习 (cs.LG)
[28] arXiv:2602.02249 (交叉列表自 cs.NI) [中文pdf, pdf, html, 其他]: 标题：评估用于邻近智能设备之间自组织通信的声学数据传输方案

标题： Evaluating Acoustic Data Transmission Schemes for Ad-Hoc Communication Between Nearby Smart Devices

Zhijie Huang, Stephen McIntosh, Daisuke Saito, Nobuaki Minematsu

评论： 31页，9幅图表，数据集可在https://doi.org/10281/zenodo.17661991获取

期刊参考： ACM 互联网事物汇刊 7，1，文章 8（2026 年 2 月），32 页

主题：网络与互联网架构 (cs.NI) ; 声音 (cs.SD)
[29] arXiv:2602.00295 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：多说话人对话音频深度伪造：分类法、数据集和初步研究

标题： Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study

Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci

评论：这项工作是在2025年IEEE国际数据挖掘会议，ICDM 2025上发表的，时间是2025年11月12日至15日，地点是美国华盛顿特区。

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)

[30] arXiv:2602.00744 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： ACE-Step 1.5：突破开源音乐生成的边界

标题： ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation

Jiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin

主题：声音 (cs.SD)
[31] arXiv:2602.01363 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：因果解耦对比学习用于多语言说话人嵌入

标题： Causally Disentangled Contrastive Learning for Multilingual Speaker Embeddings

Junchi Yao, Lokranjan Lakshmikanthan, Annie Zhao, Danielle Zhao, Shu Yang, Zikang Ding, Di Wang, Lijie Hu

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[32] arXiv:2602.00269 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题： VoxServe：面向语音语言模型的流式中心服务系统

标题： VoxServe: Streaming-Centric Serving System for Speech Language Models

Xiaoxuan Guo, Yuankun Xie, Haonan Cheng, Jiayi Zhou, Jian Liu, Hengyan Huang, Long Ye, Qin Zhang

评论：代码可在 https://github.com/vox-serve/vox-serve 获取

主题：机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 分布式、并行与集群计算 (cs.DC) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[33] arXiv:2602.01008 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：适应它重要的地方：在低资源语言中高效多语种语音识别的深度感知适应

标题： Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages

Deepak Kumar, Emmanouil Karystinaios, Gerhard Widmer, Markus Schedl

评论： 13页

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[34] arXiv:2602.01030 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：听者耳朵中的偏见：在语言、人口和位置变化中评估音频语言模型的敏感性

标题： Bias in the Ear of the Listener: Assessing Sensitivity in Audio Language Models Across Linguistic, Demographic, and Positional Variations

Yong Ren, Jingbei Li, Haiyang Sun, Yujie Chen, Cheng Yi, Yechang Huang, Hao Gu, Ye Bai, Xuerui Yang

评论：被接受为EACL 2026的长文论文

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[35] arXiv:2601.22161 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题：注意并不足以进行情感识别：在EAV数据集上领域特征优于Transformer

标题： Attention Isn't All You Need for Emotion Recognition:Domain Features Outperform Transformers on the EAV Dataset

Kai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu

评论： 2张图，10页

主题：机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[36] arXiv:2602.01793 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： ParaGSE：基于组向量量化神经语音编解码器的并行生成语音增强

标题： ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-based Neural Speech Codec

Seungu Han, Sungho Lee, Kyogu Lee

评论：被ICASSP 2026接收

主题：声音 (cs.SD)
[37] arXiv:2602.01645 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过生成流形扰动的音乐扩散模型成员推理攻击

标题： Membership Inference Attack Against Music Diffusion Models via Generative Manifold Perturbation

Chanwoo Park, Chanwoo Kim

主题：声音 (cs.SD)
[38] arXiv:2601.22661 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过平均延续对数概率评估和奖励表达性角色扮演TTS的LALMs

标题： Evaluating and Rewarding LALMs for Expressive Role-Play TTS via Mean Continuation Log-Probability

Luca Della Libera, Cem Subakan, Mirco Ravanelli

主题：声音 (cs.SD)
[39] arXiv:2601.22176 (交叉列表自 math.HO) [中文pdf, pdf, html, 其他]: 标题：让·巴拉克的繁殖系列：数学术语中的研究与分类

标题： Proliferating series by Jean Barraqué: a study and classification in mathematical terms

Yuxuan Lou, Ziming Wu, Yaochen Wang, Yong Liu, Yingxuan Ren, Fuming Lai, Shaobing Lian, Jie Tang, Yang You

评论： 28页，8图

主题：历史与概述 (math.HO) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[40] arXiv:2602.00443 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： RVCBench：跨现代音频生成模型的语音克隆鲁棒性基准测试

标题： RVCBench: Benchmarking the Robustness of Voice Cloning Across Modern Audio Generation Models

Li Zhou, Hao Jiang, Junjie Li, Tianrui Wang, Haizhou Li

评论： 40页，12图

主题：声音 (cs.SD) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[41] arXiv:2602.00607 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： MTAVG-Bench：一种用于评估多说话人对话中心的音视频生成的全面基准

标题： MTAVG-Bench: A Comprehensive Benchmark for Evaluating Multi-Talker Dialogue-Centric Audio-Video Generation

Muhammad Shakeel, Yosuke Fukumoto, Chikara Maeda, Chyi-Jiunn Lin, Shinji Watanabe

主题：多媒体 (cs.MM) ; 声音 (cs.SD)
[42] arXiv:2601.21925 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过段感知学习超越转换的语音深度伪造定位

标题： Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning

Ilyass Moummad, Marius Miron, David Robinson, Kawtar Zaher, Hervé Goëau, Olivier Pietquin, Pierre Bonnet, Emmanuel Chemla, Matthieu Geist, Alexis Joly

主题：声音 (cs.SD)
[43] arXiv:2602.00189 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： LPIPS-AttnWav2Lip：野外环境下通用的音频驱动的唇部同步方法

标题： LPIPS-AttnWav2Lip: Generic Audio-Driven lip synchronization for Talking Head Generation in the Wild

Genshun Wan, Wenhui Zhang, Jing-Xuan Zhang, Shifu Xiong, Jianqing Gao, Zhongfu Ye

评论：这篇论文已被爱思唯尔的《语音通信》期刊接受。正式发表链接：https://doi.org/10.1016/j.specom.2023.103028 论文的代码可在以下链接获取：https://github.com/FelixChan9527/LPIPS-AttnWav2Lip

期刊参考：语音通信 2023

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[44] arXiv:2602.00701 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：跨模态二值注意力：一种用于音视频学习的节能融合框架

标题： Cross-Modal Binary Attention: An Energy-Efficient Fusion Framework for Audio-Visual Learning

Renjie Lu, Xulong Zhang, Xiaoyang Qu, Jianzong Wang, Shangfei Wang

主题：多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[45] arXiv:2602.00681 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过文本蒸馏实现无需音频-图像对的音频到图像鸟类物种检索

标题： Audio-to-Image Bird Species Retrieval without Audio-Image Pairs via Text Distillation

Isabel Tardón, Pablo Martín-Santamaría

主题：声音 (cs.SD) ; 信息检索 (cs.IR) ; 机器学习 (cs.LG)
[46] arXiv:2601.22764 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：预训练大语言模型在符号音乐中能走多远？监督和基于偏好的适应的对照比较

标题： How Far Can Pretrained LLMs Go in Symbolic Music? Controlled Comparisons of Supervised and Preference-based Adaptation

Anmol Guragain

评论：被NLP4MusA 2026接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI)

[47] arXiv:2601.22480 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：重新思考语音增强中的语音表示聚合：语音学互信息视角

标题： Rethinking Speech Representation Aggregation in Speech Enhancement: A Phonetic Mutual Information Perspective

Yuchen Mao, Wen Huang, Yanmin Qian

评论：被ICASSP 2026接收

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[48] arXiv:2602.01394 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： SSNAPS：具有扩散逆采样的音频-视觉语音和背景噪声分离

标题： SSNAPS: Audio-Visual Separation of Speech and Background Noise with Diffusion Inverse Sampling

Jun Xue, Yi Chai, Yanzhen Ren, Jinshen He, Zhiqiang Tang, Zhuolin Yi, Yihuan Huang, Yuankun Xie, Yujie Chen

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[49] arXiv:2602.01032 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： HierCon：用于音频深度伪造检测的分层对比注意力

标题： HierCon: Hierarchical Contrastive Attention for Audio Deepfake Detection

June-Woo Kim, Dhruv Agarwal, Federica Cerina

评论：《网络会议2026年论文集》（WWW'26），简短轨道

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[50] arXiv:2602.02286 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： DFKI语音系统用于WildSpoof挑战：一种鲁棒的SASV野外框架

标题： DFKI-Speech System for WildSpoof Challenge: A robust framework for SASV In-the-Wild

Seonghyeon Go, Yumin Kim

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)

总共 105 条目 : 1-50 51-100 101-105

显示最多 50 每页条目：较少 | 更多 | 所有

声音

最近提交的作者和标题

2026年02月03日，星期二 (展示 29 之 29 条目 )

2026年02月02日，星期一 (展示 17 之 17 条目 )

2026年01月30日，星期五 (展示首先 22 之 4 条目 )

声音

最近提交的作者和标题

2026年02月03日， 星期二 (展示 29 之 29 条目 )

2026年02月02日， 星期一 (展示 17 之 17 条目 )

2026年01月30日， 星期五 (展示 首先 22 之 4 条目 )

2026年02月03日，星期二 (展示 29 之 29 条目 )

2026年02月02日，星期一 (展示 17 之 17 条目 )

2026年01月30日，星期五 (展示首先 22 之 4 条目 )