Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.SD

帮助 | 高级搜索

声音

2023年06月 的作者和标题

总共 302 条目 : 1-50 51-100 101-150 151-200 ... 301-302
显示最多 50 每页条目: 较少 | 更多 | 所有
[1] arXiv:2306.00107 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MERT:具有大规模自监督训练的声学音乐理解模型
标题: MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghao Xiao, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Zili Wang, Yike Guo, Jie Fu
评论: 被ICLR 2024接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[2] arXiv:2306.00110 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: MuseCoco:从文本生成符号音乐
标题: MuseCoco: Generating Symbolic Music from Text
Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[3] arXiv:2306.00489 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 语音补全:基于上下文的视频引导语音合成
标题: Speech inpainting: Context-based speech synthesis guided by video
Juan F. Montesinos, Daniel Michelsanti, Gloria Haro, Zheng-Hua Tan, Jesper Jensen
评论: 已被Interspeech23接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[4] arXiv:2306.00561 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 带有多窗口局部-全局注意力的掩码自编码器是更好的音频学习者
标题: Masked Autoencoders with Multi-Window Local-Global Attention Are Better Audio Learners
Sarthak Yadav, Sergios Theodoridis, Lars Kai Hansen, Zheng-Hua Tan
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[5] arXiv:2306.00614 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 船舶无线电通信领域航海领域的自动语音识别(ASR)的适应与优化
标题: Adaptation and Optimization of Automatic Speech Recognition (ASR) for the Maritime Domain in the Field of VHF Communication
Emin Cagatay Nakilcioglu, Maximilian Reimann, Ole John
期刊参考: COMPIT会议论文集22(2023)345-354
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[6] arXiv:2306.00648 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: EmoMix:基于扩散模型的情感语音合成中的情感混合
标题: EmoMix: Emotion Mixing via Diffusion Models for Emotional Speech Synthesis
Haobin Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao
评论: 被第24届国际语音通信协会会议(INTERSPEECH 2023)录用
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[7] arXiv:2306.00680 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于编码器-解码器的多模态说话人变化检测
标题: Encoder-decoder multimodal speaker change detection
Jee-weon Jung, Soonshin Seo, Hee-Soo Heo, Geonmin Kim, You Jin Kim, Young-ki Kwon, Minjae Lee, Bong-Jin Lee
评论: 5页,已被INTERSPEECH 2023接受为展示论文
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[8] arXiv:2306.00689 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于说话人表示和自监督上下文嵌入的口吃检测
标题: Stuttering Detection Using Speaker Representations and Self-supervised Contextual Embeddings
Shakeel A. Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni
评论: 已被Springer《国际语音技术期刊》2023年接受,与arXiv:2204.01564有大量重叠内容。
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[9] arXiv:2306.00721 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 无监督语音修复的 unconditional 扩散模型
标题: UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model
Anastasiia Iashchenko, Pavel Andreev, Ivan Shchekotov, Nicholas Babaev, Dmitry Vetrov
评论: 已被Interspeech 2023接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[10] arXiv:2306.00794 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: SlothSpeech:针对语音识别模型的拒绝服务攻击
标题: SlothSpeech: Denial-of-service Attack Against Speech Recognition Models
Mirazul Haque, Rutvij Shah, Simin Chen, Berrak Şişman, Cong Liu, Wei Yang
主题: 声音 (cs.SD) ; 密码学与安全 (cs.CR) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[11] arXiv:2306.00804 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于转录器的流式语音识别的自适应上下文偏向
标题: Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition
Tianyi Xu, Zhanheng Yang, Kaixun Huang, Pengcheng Guo, Ao Zhang, Biao Li, Changru Chen, Chao Li, Lei Xie
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[12] arXiv:2306.00814 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: Vocos:弥合时域与基于傅里叶的神经网络声码器在高质量音频合成中的差距
标题: Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis
Hubert Siuzdak
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[13] arXiv:2306.00830 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 将 ConvNeXt 模型适应于 AudioSet 的音频分类任务
标题: Adapting a ConvNeXt model to audio classification on AudioSet
Thomas Pellegrini, Ismail Khalfaoui-Hassani, Etienne Labbé, Timothée Masquelier
评论: 已被INTERSPEECH 2023录用
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[14] arXiv:2306.00860 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 用于相位响应估计和自动信号对齐的可微全通滤波器
标题: Differentiable Allpass Filters for Phase Response Estimation and Automatic Signal Alignment
Anders R. Bargum, Stefania Serafin, Cumhur Erkut, Julian D. Parker
评论: 合作完成于实习/受雇于Native Instruments期间。已被接受在《Proc. DAFX'23》发表,丹麦,哥本哈根,2023年9月。声音示例见https://abargum.github.io v2: 10页,LaTeX;调整了图表大小,优化了pdf。
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[15] arXiv:2306.01084 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: HuBERT 多分辨率探索
标题: Exploration on HuBERT with Multiple Resolutions
Jiatong Shi, Yun Tang, Hirofumi Inaguma, Hongyu GOng, Juan Pino, Shinji Watanabe
评论: 已被Interspeech2023接受
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[16] arXiv:2306.01304 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: JEPOO:用于音乐信息检索的高精度音高、起始和终止联合估计
标题: JEPOO: Highly Accurate Joint Estimation of Pitch, Onset and Offset for Music Information Retrieval
Haojie Wei, Jun Yuan, Rui Zhang, Yueguo Chen, Gang Wang
评论: 本文已被IJCAI 2023接受;11页,6幅图
主题: 声音 (cs.SD) ; 信息检索 (cs.IR) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[17] arXiv:2306.01428 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 使用Whisper特征的改进深度伪造检测
标题: Improved DeepFake Detection Using Whisper Features
Piotr Kawa, Marcin Plata, Michał Czuba, Piotr Szymański, Piotr Syga
评论: 被接受为2023年INTERSPEECH会议论文
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[18] arXiv:2306.01442 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 通过建模残差多模态实现稳健的FastSpeech 2
标题: Towards Robust FastSpeech 2 by Modelling Residual Multimodality
Fabian Kögel, Bac Nguyen, Fabien Cardinaux
评论: 被INTERSPEECH 2023接受
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[19] arXiv:2306.01491 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 学习局部到全局特征聚合用于语音情感识别
标题: Learning Local to Global Feature Aggregation for Speech Emotion Recognition
Cheng Lu, Hailun Lian, Wenming Zheng, Yuan Zong, Yan Zhao, Sunan Li
评论: 本文已被接受在2023年INTERSPEECH会议上
主题: 声音 (cs.SD)
[20] arXiv:2306.01533 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 利用声音事件检测增强音频描述中的时间关系
标题: Enhance Temporal Relations in Audio Captioning with Sound Event Detection
Zeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu
评论: 国际语音会议2023
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[21] arXiv:2306.01635 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 问答:基于查询的多轨符号音乐重新编排表示学习
标题: Q&A: Query-Based Representation Learning for Multi-Track Symbolic Music re-Arrangement
Jingwei Zhao, Gus Xia, Ye Wang
评论: 被IJCAI 2023人工智能与艺术创造力特别会议接收
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[22] arXiv:2306.01789 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于编辑距离的RL用于RNNT解码
标题: Edit Distance based RL for RNNT decoding
Dongseong Hwang, Changwan Ryu, Khe Chai Sim
评论: 5页,2图
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[23] arXiv:2306.01845 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 多视图多任务表征学习用于发音错误检测
标题: Multi-View Multi-Task Representation Learning for Mispronunciation Detection
Yassine El Kheir, Shammur Absar Chowdhury, Ahmed Ali
评论: 5页,被SLaTE23接收
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[24] arXiv:2306.01974 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: BEDRF:用于交互式声音传播的双向边缘衍射响应函数
标题: BEDRF: Bidirectional Edge Diffraction Response Function for Interactive Sound Propagation
Chunxiao Cao, Zili An, Zhong Ren, Dinesh Manocha, Kun Zhou
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[25] arXiv:2306.02251 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 低升调的音调轮廓受语调协同发音和韵律位置的影响:以厦门方言为例
标题: Effects of Tonal Coarticulation and Prosodic Positions on Tonal Contours of Low Rising Tones: In the Case of Xiamen Dialect
Yiying Hu, Hui Feng, Qinghua Zhao, Aijun Li
评论: 将发表于InterSpeech 2023
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[26] arXiv:2306.02263 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: MAVD:包含深度信息的第一个开放的大规模普通话音视频数据集
标题: MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information
Jianrong Wang, Yuchen Huo, Li Liu, Tianyi Xu, Qi Li, Sen Li
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV)
[27] arXiv:2306.02613 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 可控制的歌词到旋律生成
标题: Controllable Lyrics-to-Melody Generation
Zhe Zhang, Yi Yu, Atsuhiro Takasu
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[28] arXiv:2306.02625 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 重新思考视听说话人提取中的视觉线索
标题: Rethinking the visual cues in audio-visual speaker extraction
Junjie Li, Meng Ge, Zexu pan, Rui Cao, Longbiao Wang, Jianwu Dang, Shiliang Zhang
评论: 被Interspeech 2023接受
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[29] arXiv:2306.02750 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 学习处方,一种神经网络助听器核心
标题: The Learning Prescription, A Neural Network Hearing Aid Core
Matt R. Flax
评论: https://github.com/flatmax/hearing.aid-neural.network-core
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[30] arXiv:2306.03177 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: DeepVQE:用于联合声学回声消除、噪声抑制和去混响的实时深度语音质量增强
标题: DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic Echo Cancellation, Noise Suppression and Dereverberation
Evgenii Indenbom, Nicolae-Catalin Ristea, Ando Saabas, Tanel Parnamaa, Jegor Guzvin, Ross Cutler
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 音频与语音处理 (eess.AS)
[31] arXiv:2306.03307 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 珊瑚白化数据的听觉展示:夏威夷2019年珊瑚白化哀歌
标题: Reef Elegy: An Auditory Display of Hawaii's 2019 Coral Bleaching Data
Stefano Kalonaris
评论: 将出现在:第28届国际听觉显示会议(ICAD 2023)论文集 中 注释:此版本(v2)替换了错误渲染的图2。不要使用或引用之前的版本(v1)
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[32] arXiv:2306.03389 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 相位扰动提高语音欺骗对抗措施的信道鲁棒性
标题: Phase perturbation improves channel robustness for speech spoofing countermeasures
Yongyi Zang, You Zhang, Zhiyao Duan
评论: 5页;2023年国际语音会议论文集
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[33] arXiv:2306.03718 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于层次化变分自编码器的情绪调节旋律和声化
标题: Emotion-Conditioned Melody Harmonization with Hierarchical Variational Autoencoder
Shulei Ji, Xinyu Yang
评论: 被IEEE SMC 2023接受
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[34] arXiv:2306.04143 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: RISC:用于喊叫类型分类和喊叫强度预测的语料库
标题: RISC: A Corpus for Shout Type Classification and Shout Intensity Prediction
Takahiro Fukumori, Taito Ishida, Yoichi Yamashita
评论: 本文已被接受发表于IEEE/ACM《音频、语音和语言处理汇刊》。DOI: 10.1109/TASLP.2024.3473302
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[35] arXiv:2306.04148 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: SANGEET:基于XML的印度斯坦音乐研究开放数据集
标题: SANGEET: A XML based Open Dataset for Research in Hindustani Sangeet
Chandan Misra, Swarup Chattopadhyay
主题: 声音 (cs.SD) ; 信息检索 (cs.IR) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[36] arXiv:2306.04268 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于循环谐波特征的会议中多麦克风自动语音分割
标题: Multi-microphone Automatic Speech Segmentation in Meetings Based on Circular Harmonics Features
Théo Mariotte (LAUM, LIUM), Anthony Larcher (LIUM), Silvio Montrésor (LAUM), Jean-Hugh Thomas (LAUM)
评论: 国际语音通信协会(ISCA)2023年国际语音会议,2023年8月,都柏林,爱尔兰
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[37] arXiv:2306.04286 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 一种无掩码的单通道语音增强神经网络
标题: A Mask Free Neural Network for Monaural Speech Enhancement
Liang Liu, Haixin Guan, Jinlong Ma, Wei Dai, Guangyong Wang, Shaowei Ding
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[38] arXiv:2306.04301 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 可解释的文本到语音风格迁移,使用ControlVAE和扩散桥
标题: Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge
Wenhao Guan, Tao Li, Yishuang Li, Hukai Huang, Qingyang Hong, Lin Li
评论: 被Interspeech 2023接受
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[39] arXiv:2306.04368 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于对抗和信号增强的阿拉伯语构音障碍语音识别
标题: Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation
Massa Baali, Ibrahim Almakky, Shady Shehata, Fakhri Karray
评论: 被Interspeech 2023接收
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[40] arXiv:2306.04628 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: BERT音乐表示的系统分析
标题: Systematic Analysis of Music Representations from BERT
Sangjun Han, Hyeongrae Ihm, Woohyung Lim
主题: 声音 (cs.SD) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[41] arXiv:2306.04956 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 自适应低秩模型压缩的虚假音频检测
标题: Adaptive Fake Audio Detection with Low-Rank Model Squeezing
Xiaohui Zhang, Jiangyan Yi, Jianhua Tao, Chenlong Wang, Le Xu, Ruibo Fu
期刊参考: DADA IJCAI 2023研讨会
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[42] arXiv:2306.05279 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 针对普通话-英语混合语 speech recognition 的语言特定声学边界学习
标题: Language-specific Acoustic Boundary Learning for Mandarin-English Code-switching Speech Recognition
Zhiyun Fan, Linhao Dong, Chen Shen, Zhenlin Liang, Jun Zhang, Lu Lu, Zejun Ma
主题: 声音 (cs.SD)
[43] arXiv:2306.05284 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 简单可控的音乐生成
标题: Simple and Controllable Music Generation
Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
评论: 发表于NeurIPS 2023
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[44] arXiv:2306.05350 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于参数高效迁移学习方法的语音情感识别预训练模型研究
标题: PEFT-SER: On the Use of Parameter Efficient Transfer Learning Approaches For Speech Emotion Recognition Using Pre-trained Speech Models
Tiantian Feng, Shrikanth Narayanan
评论: 这项工作被2023年第11届国际情感计算与智能交互会议(ACII)接受。
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[45] arXiv:2306.05617 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于Wav2vec2的假音频检测低秩自适应方法
标题: Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection
Chenglong Wang, Jiangyan Yi, Xiaohui Zhang, Jianhua Tao, Le Xu, Ruibo Fu
评论: 6页
期刊参考: IJCAI 2023深度伪造音频检测与分析研讨会
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[46] arXiv:2306.05708 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 通过线性扩散加速高质量语音合成
标题: Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion
Haogeng Liu, Tao Wang, Jie Cao, Ran He, Jianhua Tao
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[47] arXiv:2306.06040 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 使用变换网络重建钢琴表演中的人类表现力
标题: Reconstructing Human Expressiveness in Piano Performances with a Transformer Network
Jingjing Tang, Geraint Wiggins, Gyorgy Fazekas
评论: 12页,5幅图,已被CMMR2023接受,第16届国际计算机音乐多学科研究研讨会
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[48] arXiv:2306.06083 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 通过无监督聚类改进端到端语音识别的公平性和鲁棒性
标题: Improving Fairness and Robustness in End-to-End Speech Recognition through unsupervised clustering
Irina-Elena Veliche, Pascale Fung
期刊参考: ICASSP 2023
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[49] arXiv:2306.06284 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 人人创作:深度节拍与音乐
标题: Everybody Compose: Deep Beats To Music
Conghao Shen, Violet Z. Yao, Yixin Liu
评论: 接受MMSys '23
期刊参考: 第14届ACM多媒体系统会议 proceedings (2023)
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[50] arXiv:2306.06514 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 无需声码器的非并行耳语语音转换方法,基于掩码循环一致生成对抗网络
标题: Vocoder-Free Non-Parallel Conversion of Whispered Speech With Masked Cycle-Consistent Generative Adversarial Networks
Dominik Wagner, Ilja Baumann, Tobias Bocklet
评论: 已被TSD 2025接收
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
总共 302 条目 : 1-50 51-100 101-150 151-200 ... 301-302
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号