声音

2023年06月的作者和标题

总共 302 条目 : 1-50 51-100 101-150 151-200 ... 301-302

显示最多 50 每页条目：较少 | 更多 | 所有

[1] arXiv:2306.00107 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MERT：具有大规模自监督训练的声学音乐理解模型

标题： MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghao Xiao, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Zili Wang, Yike Guo, Jie Fu

评论：被ICLR 2024接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[2] arXiv:2306.00110 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： MuseCoco：从文本生成符号音乐

标题： MuseCoco: Generating Symbolic Music from Text

Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[3] arXiv:2306.00489 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：语音补全：基于上下文的视频引导语音合成

标题： Speech inpainting: Context-based speech synthesis guided by video

Juan F. Montesinos, Daniel Michelsanti, Gloria Haro, Zheng-Hua Tan, Jesper Jensen

评论：已被Interspeech23接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[4] arXiv:2306.00561 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：带有多窗口局部-全局注意力的掩码自编码器是更好的音频学习者

标题： Masked Autoencoders with Multi-Window Local-Global Attention Are Better Audio Learners

Sarthak Yadav, Sergios Theodoridis, Lars Kai Hansen, Zheng-Hua Tan

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[5] arXiv:2306.00614 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：船舶无线电通信领域航海领域的自动语音识别（ASR）的适应与优化

标题： Adaptation and Optimization of Automatic Speech Recognition (ASR) for the Maritime Domain in the Field of VHF Communication

Emin Cagatay Nakilcioglu, Maximilian Reimann, Ole John

期刊参考： COMPIT会议论文集22（2023）345-354

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[6] arXiv:2306.00648 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： EmoMix：基于扩散模型的情感语音合成中的情感混合

标题： EmoMix: Emotion Mixing via Diffusion Models for Emotional Speech Synthesis

Haobin Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao

评论：被第24届国际语音通信协会会议（INTERSPEECH 2023）录用

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[7] arXiv:2306.00680 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于编码器-解码器的多模态说话人变化检测

标题： Encoder-decoder multimodal speaker change detection

Jee-weon Jung, Soonshin Seo, Hee-Soo Heo, Geonmin Kim, You Jin Kim, Young-ki Kwon, Minjae Lee, Bong-Jin Lee

评论： 5页，已被INTERSPEECH 2023接受为展示论文

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[8] arXiv:2306.00689 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于说话人表示和自监督上下文嵌入的口吃检测

标题： Stuttering Detection Using Speaker Representations and Self-supervised Contextual Embeddings

Shakeel A. Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni

评论：已被Springer《国际语音技术期刊》2023年接受，与arXiv:2204.01564有大量重叠内容。

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[9] arXiv:2306.00721 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：无监督语音修复的 unconditional 扩散模型

标题： UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model

Anastasiia Iashchenko, Pavel Andreev, Ivan Shchekotov, Nicholas Babaev, Dmitry Vetrov

评论：已被Interspeech 2023接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[10] arXiv:2306.00794 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： SlothSpeech：针对语音识别模型的拒绝服务攻击

标题： SlothSpeech: Denial-of-service Attack Against Speech Recognition Models

Mirazul Haque, Rutvij Shah, Simin Chen, Berrak Şişman, Cong Liu, Wei Yang

主题：声音 (cs.SD) ; 密码学与安全 (cs.CR) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[11] arXiv:2306.00804 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于转录器的流式语音识别的自适应上下文偏向

标题： Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition

Tianyi Xu, Zhanheng Yang, Kaixun Huang, Pengcheng Guo, Ao Zhang, Biao Li, Changru Chen, Chao Li, Lei Xie

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[12] arXiv:2306.00814 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： Vocos：弥合时域与基于傅里叶的神经网络声码器在高质量音频合成中的差距

标题： Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis

Hubert Siuzdak

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[13] arXiv:2306.00830 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：将 ConvNeXt 模型适应于 AudioSet 的音频分类任务

标题： Adapting a ConvNeXt model to audio classification on AudioSet

Thomas Pellegrini, Ismail Khalfaoui-Hassani, Etienne Labbé, Timothée Masquelier

评论：已被INTERSPEECH 2023录用

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[14] arXiv:2306.00860 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：用于相位响应估计和自动信号对齐的可微全通滤波器

标题： Differentiable Allpass Filters for Phase Response Estimation and Automatic Signal Alignment

Anders R. Bargum, Stefania Serafin, Cumhur Erkut, Julian D. Parker

评论：合作完成于实习/受雇于Native Instruments期间。已被接受在《Proc. DAFX'23》发表，丹麦，哥本哈根，2023年9月。声音示例见https://abargum.github.io v2: 10页，LaTeX；调整了图表大小，优化了pdf。

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[15] arXiv:2306.01084 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： HuBERT 多分辨率探索

标题： Exploration on HuBERT with Multiple Resolutions

Jiatong Shi, Yun Tang, Hirofumi Inaguma, Hongyu GOng, Juan Pino, Shinji Watanabe

评论：已被Interspeech2023接受

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[16] arXiv:2306.01304 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： JEPOO：用于音乐信息检索的高精度音高、起始和终止联合估计

标题： JEPOO: Highly Accurate Joint Estimation of Pitch, Onset and Offset for Music Information Retrieval

Haojie Wei, Jun Yuan, Rui Zhang, Yueguo Chen, Gang Wang

评论：本文已被IJCAI 2023接受；11页，6幅图

主题：声音 (cs.SD) ; 信息检索 (cs.IR) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[17] arXiv:2306.01428 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：使用Whisper特征的改进深度伪造检测

标题： Improved DeepFake Detection Using Whisper Features

Piotr Kawa, Marcin Plata, Michał Czuba, Piotr Szymański, Piotr Syga

评论：被接受为2023年INTERSPEECH会议论文

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[18] arXiv:2306.01442 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：通过建模残差多模态实现稳健的FastSpeech 2

标题： Towards Robust FastSpeech 2 by Modelling Residual Multimodality

Fabian Kögel, Bac Nguyen, Fabien Cardinaux

评论：被INTERSPEECH 2023接受

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[19] arXiv:2306.01491 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：学习局部到全局特征聚合用于语音情感识别

标题： Learning Local to Global Feature Aggregation for Speech Emotion Recognition

Cheng Lu, Hailun Lian, Wenming Zheng, Yuan Zong, Yan Zhao, Sunan Li

评论：本文已被接受在2023年INTERSPEECH会议上

主题：声音 (cs.SD)
[20] arXiv:2306.01533 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：利用声音事件检测增强音频描述中的时间关系

标题： Enhance Temporal Relations in Audio Captioning with Sound Event Detection

Zeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu

评论：国际语音会议2023

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[21] arXiv:2306.01635 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：问答：基于查询的多轨符号音乐重新编排表示学习

标题： Q&A: Query-Based Representation Learning for Multi-Track Symbolic Music re-Arrangement

Jingwei Zhao, Gus Xia, Ye Wang

评论：被IJCAI 2023人工智能与艺术创造力特别会议接收

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[22] arXiv:2306.01789 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于编辑距离的RL用于RNNT解码

标题： Edit Distance based RL for RNNT decoding

Dongseong Hwang, Changwan Ryu, Khe Chai Sim

评论： 5页，2图

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[23] arXiv:2306.01845 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：多视图多任务表征学习用于发音错误检测

标题： Multi-View Multi-Task Representation Learning for Mispronunciation Detection

Yassine El Kheir, Shammur Absar Chowdhury, Ahmed Ali

评论： 5页，被SLaTE23接收

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[24] arXiv:2306.01974 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： BEDRF：用于交互式声音传播的双向边缘衍射响应函数

标题： BEDRF: Bidirectional Edge Diffraction Response Function for Interactive Sound Propagation

Chunxiao Cao, Zili An, Zhong Ren, Dinesh Manocha, Kun Zhou

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[25] arXiv:2306.02251 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：低升调的音调轮廓受语调协同发音和韵律位置的影响：以厦门方言为例

标题： Effects of Tonal Coarticulation and Prosodic Positions on Tonal Contours of Low Rising Tones: In the Case of Xiamen Dialect

Yiying Hu, Hui Feng, Qinghua Zhao, Aijun Li

评论：将发表于InterSpeech 2023

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[26] arXiv:2306.02263 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： MAVD：包含深度信息的第一个开放的大规模普通话音视频数据集

标题： MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information

Jianrong Wang, Yuchen Huo, Li Liu, Tianyi Xu, Qi Li, Sen Li

主题：声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV)
[27] arXiv:2306.02613 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：可控制的歌词到旋律生成

标题： Controllable Lyrics-to-Melody Generation

Zhe Zhang, Yi Yu, Atsuhiro Takasu

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[28] arXiv:2306.02625 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：重新思考视听说话人提取中的视觉线索

标题： Rethinking the visual cues in audio-visual speaker extraction

Junjie Li, Meng Ge, Zexu pan, Rui Cao, Longbiao Wang, Jianwu Dang, Shiliang Zhang

评论：被Interspeech 2023接受

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[29] arXiv:2306.02750 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：学习处方，一种神经网络助听器核心

标题： The Learning Prescription, A Neural Network Hearing Aid Core

Matt R. Flax

评论： https://github.com/flatmax/hearing.aid-neural.network-core

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[30] arXiv:2306.03177 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： DeepVQE：用于联合声学回声消除、噪声抑制和去混响的实时深度语音质量增强

标题： DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic Echo Cancellation, Noise Suppression and Dereverberation

Evgenii Indenbom, Nicolae-Catalin Ristea, Ando Saabas, Tanel Parnamaa, Jegor Guzvin, Ross Cutler

主题：声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 音频与语音处理 (eess.AS)
[31] arXiv:2306.03307 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：珊瑚白化数据的听觉展示：夏威夷2019年珊瑚白化哀歌

标题： Reef Elegy: An Auditory Display of Hawaii's 2019 Coral Bleaching Data

Stefano Kalonaris

评论：将出现在：第28届国际听觉显示会议（ICAD 2023）论文集中注释：此版本（v2）替换了错误渲染的图2。不要使用或引用之前的版本（v1）

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[32] arXiv:2306.03389 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：相位扰动提高语音欺骗对抗措施的信道鲁棒性

标题： Phase perturbation improves channel robustness for speech spoofing countermeasures

Yongyi Zang, You Zhang, Zhiyao Duan

评论： 5页；2023年国际语音会议论文集

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[33] arXiv:2306.03718 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于层次化变分自编码器的情绪调节旋律和声化

标题： Emotion-Conditioned Melody Harmonization with Hierarchical Variational Autoencoder

Shulei Ji, Xinyu Yang

评论：被IEEE SMC 2023接受

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[34] arXiv:2306.04143 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： RISC：用于喊叫类型分类和喊叫强度预测的语料库

标题： RISC: A Corpus for Shout Type Classification and Shout Intensity Prediction

Takahiro Fukumori, Taito Ishida, Yoichi Yamashita

评论：本文已被接受发表于IEEE/ACM《音频、语音和语言处理汇刊》。DOI: 10.1109/TASLP.2024.3473302

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[35] arXiv:2306.04148 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： SANGEET：基于XML的印度斯坦音乐研究开放数据集

标题： SANGEET: A XML based Open Dataset for Research in Hindustani Sangeet

Chandan Misra, Swarup Chattopadhyay

主题：声音 (cs.SD) ; 信息检索 (cs.IR) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[36] arXiv:2306.04268 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于循环谐波特征的会议中多麦克风自动语音分割

标题： Multi-microphone Automatic Speech Segmentation in Meetings Based on Circular Harmonics Features

Théo Mariotte (LAUM, LIUM), Anthony Larcher (LIUM), Silvio Montrésor (LAUM), Jean-Hugh Thomas (LAUM)

评论：国际语音通信协会（ISCA）2023年国际语音会议，2023年8月，都柏林，爱尔兰

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[37] arXiv:2306.04286 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：一种无掩码的单通道语音增强神经网络

标题： A Mask Free Neural Network for Monaural Speech Enhancement

Liang Liu, Haixin Guan, Jinlong Ma, Wei Dai, Guangyong Wang, Shaowei Ding

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[38] arXiv:2306.04301 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：可解释的文本到语音风格迁移，使用ControlVAE和扩散桥

标题： Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge

Wenhao Guan, Tao Li, Yishuang Li, Hukai Huang, Qingyang Hong, Lin Li

评论：被Interspeech 2023接受

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[39] arXiv:2306.04368 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于对抗和信号增强的阿拉伯语构音障碍语音识别

标题： Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation

Massa Baali, Ibrahim Almakky, Shady Shehata, Fakhri Karray

评论：被Interspeech 2023接收

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[40] arXiv:2306.04628 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： BERT音乐表示的系统分析

标题： Systematic Analysis of Music Representations from BERT

Sangjun Han, Hyeongrae Ihm, Woohyung Lim

主题：声音 (cs.SD) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[41] arXiv:2306.04956 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：自适应低秩模型压缩的虚假音频检测

标题： Adaptive Fake Audio Detection with Low-Rank Model Squeezing

Xiaohui Zhang, Jiangyan Yi, Jianhua Tao, Chenlong Wang, Le Xu, Ruibo Fu

期刊参考： DADA IJCAI 2023研讨会

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[42] arXiv:2306.05279 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：针对普通话-英语混合语 speech recognition 的语言特定声学边界学习

标题： Language-specific Acoustic Boundary Learning for Mandarin-English Code-switching Speech Recognition

Zhiyun Fan, Linhao Dong, Chen Shen, Zhenlin Liang, Jun Zhang, Lu Lu, Zejun Ma

主题：声音 (cs.SD)
[43] arXiv:2306.05284 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：简单可控的音乐生成

标题： Simple and Controllable Music Generation

Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez

评论：发表于NeurIPS 2023

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[44] arXiv:2306.05350 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于参数高效迁移学习方法的语音情感识别预训练模型研究

标题： PEFT-SER: On the Use of Parameter Efficient Transfer Learning Approaches For Speech Emotion Recognition Using Pre-trained Speech Models

Tiantian Feng, Shrikanth Narayanan

评论：这项工作被2023年第11届国际情感计算与智能交互会议（ACII）接受。

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[45] arXiv:2306.05617 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于Wav2vec2的假音频检测低秩自适应方法

标题： Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection

Chenglong Wang, Jiangyan Yi, Xiaohui Zhang, Jianhua Tao, Le Xu, Ruibo Fu

评论： 6页

期刊参考： IJCAI 2023深度伪造音频检测与分析研讨会

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[46] arXiv:2306.05708 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：通过线性扩散加速高质量语音合成

标题： Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion

Haogeng Liu, Tao Wang, Jie Cao, Ran He, Jianhua Tao

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[47] arXiv:2306.06040 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：使用变换网络重建钢琴表演中的人类表现力

标题： Reconstructing Human Expressiveness in Piano Performances with a Transformer Network

Jingjing Tang, Geraint Wiggins, Gyorgy Fazekas

评论： 12页，5幅图，已被CMMR2023接受，第16届国际计算机音乐多学科研究研讨会

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[48] arXiv:2306.06083 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：通过无监督聚类改进端到端语音识别的公平性和鲁棒性

标题： Improving Fairness and Robustness in End-to-End Speech Recognition through unsupervised clustering

Irina-Elena Veliche, Pascale Fung

期刊参考： ICASSP 2023

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[49] arXiv:2306.06284 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：人人创作：深度节拍与音乐

标题： Everybody Compose: Deep Beats To Music

Conghao Shen, Violet Z. Yao, Yixin Liu

评论：接受MMSys '23

期刊参考：第14届ACM多媒体系统会议 proceedings (2023)

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[50] arXiv:2306.06514 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：无需声码器的非并行耳语语音转换方法，基于掩码循环一致生成对抗网络

标题： Vocoder-Free Non-Parallel Conversion of Whispered Speech With Masked Cycle-Consistent Generative Adversarial Networks

Dominik Wagner, Ilja Baumann, Tobias Bocklet

评论：已被TSD 2025接收

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)

总共 302 条目 : 1-50 51-100 101-150 151-200 ... 301-302

显示最多 50 每页条目：较少 | 更多 | 所有

声音

2023年06月 的作者和标题

2023年06月的作者和标题