Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.SD

帮助 | 高级搜索

声音

2023年06月 的作者和标题

总共 302 条目 : 1-50 51-100 101-150 151-200 201-250 251-300 301-302
显示最多 50 每页条目: 较少 | 更多 | 所有
[151] arXiv:2306.01015 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 如何估计预训练语音模型的可迁移性?
标题: How to Estimate Model Transferability of Pre-Trained Speech Models?
Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Shuo-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath
评论: 已接受发表于Interspeech。代码地址:https://github.com/virginiakm1988/LogME-CTC。修正了一个拼写错误。
主题: 计算与语言 (cs.CL) ; 神经与进化计算 (cs.NE) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[152] arXiv:2306.01031 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 旁路时间分类:基于有缺陷 transcripts 的弱监督自动语音识别
标题: Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect Transcripts
Dongji Gao, Matthew Wiesner, Hainan Xu, Leibny Paola Garcia, Daniel Povey, Sanjeev Khudanpur
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[153] arXiv:2306.01100 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: ALO-VC:任意到任意低延迟一次性语音转换
标题: ALO-VC: Any-to-any Low-latency One-shot Voice Conversion
Bohan Wang, Damien Ronssin, Milos Cernak
评论: 已接受发表于Interspeech 2023。一些音频样本可在 <https://bohan7.github.io/ALO-VC-demo/> 获取。
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[154] arXiv:2306.01201 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 何时发言的学习:离线模型同时语音到语音翻译中的延迟与质量权衡
标题: Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models
Liam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan McGuire, Victor Zordan
评论: 将于2023年INTERSPEECH会议上发表
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[155] arXiv:2306.01208 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 适应一个无法适应的ASR系统
标题: Adapting an Unadaptable ASR System
Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill
评论: 第十一届语音通信国际会议论文集
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[156] arXiv:2306.01303 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: DistilXLSR:一种轻量级跨语言语音表示模型
标题: DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model
Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Jinfeng Bai
评论: 已被INTERSPEECH 2023录用
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[157] arXiv:2306.01327 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 基于基础模型和最优传输的语音翻译:UPC在IWSLT23中的表现
标题: Speech Translation with Foundation Models and Optimal Transport: UPC at IWSLT23
Ioannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-jussà
评论: IWSLT 2023
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[158] arXiv:2306.01332 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 基于帧的频谱处理的相位器效果的可微灰盒建模
标题: Differentiable Grey-box Modelling of Phaser Effects using Frame-based Spectral Processing
Alistair Carson, Cassia Valentini-Botinhao, Simon King, Stefan Bilbao
评论: 已接受发表于DAFx23会议论文集,丹麦哥本哈根,2023年9月
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[159] arXiv:2306.01385 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 任务无关的语音表示模型结构化剪枝
标题: Task-Agnostic Structured Pruning of Speech Representation Models
Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan
评论: 被INTERSPEECH 2023接受
期刊参考: INTERSPEECH (2023) 231-235
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[160] arXiv:2306.01411 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: HD-DEMUCS:具有异构解码器的通用语音恢复
标题: HD-DEMUCS: General Speech Restoration with Heterogeneous Decoders
Doyeon Kim, Soo-Whan Chung, Hyewon Han, Youna Ji, Hong-Goo Kang
评论: 被INTERSPEECH 2023接受
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[161] arXiv:2306.01433 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 盲音频带宽扩展:一种基于扩散的零样本方法
标题: Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach
Eloi Moliner, Filip Elvander, Vesa Välimäki
评论: 提交至IEEE/ACM音频、语音和语言处理汇刊
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[162] arXiv:2306.01522 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 听觉表征对于估计声道信息有效
标题: Auditory Representation Effective for Estimating Vocal Tract Information
Toshio Irino, Shintaro Doan
评论: 该手稿是2023年8月25日被Proc. APSIPA ASC 2023接受发表后的修订版本
期刊参考: APSIPA ASC 2023 会议录
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[163] arXiv:2306.01864 (交叉列表自 cs.LG) [中文pdf, pdf, 其他]
标题: 从无标签数据中使用不同预训练领域的对比学习发现 COVID-19 咳嗽和呼吸模式
标题: Discovering COVID-19 Coughing and Breathing Patterns from Unlabeled Data Using Contrastive Learning with Varying Pre-Training Domains
Jinjin Cai, Sudip Vhaduri, Xiao Luo
评论: 被INTERSPEECH 2023接收
期刊参考: INTERSPEECH 2023论文集
主题: 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[164] arXiv:2306.01942 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: Whisper和GPT-2中情境偏差是否仍然有效?
标题: Can Contextual Biasing Remain Effective with Whisper and GPT-2?
Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C. Woodland
评论: 将出现在2023年国际语音会议上
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[165] arXiv:2306.02105 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 推进非洲口音语音识别:可推广的ASR模型的认知不确定性驱动的数据选择
标题: Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models
Bonaventure F. P. Dossou
评论: 被ACL SRW 2025接受
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[166] arXiv:2306.02153 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 声学词嵌入用于未转录目标语言的持续预训练和学习池化
标题: Acoustic Word Embeddings for Untranscribed Target Languages with Continued Pretraining and Learned Pooling
Ramon Sanabria, Ondrej Klejch, Hao Tang, Sharon Goldwater
评论: 被国际语音会议2023接收
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[167] arXiv:2306.02273 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 端到端联合目标和非目标说话人语音识别
标题: End-to-End Joint Target and Non-Target Speakers ASR
Ryo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando
评论: 被Interspeech 2023接收
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[168] arXiv:2306.02317 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: SpellMapper:一种基于n-gram映射的候选检索非自回归神经拼写检查器,用于ASR定制
标题: SpellMapper: A non-autoregressive neural spellchecker for ASR customization with candidate retrieval based on n-gram mappings
Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg
评论: 被INTERSPEECH 2023接受
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[169] arXiv:2306.02534 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 使用发音特征的L2音素用于鲁棒语音识别
标题: Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition
Jisung Wang, Haram Lee, Myungwoo Oh
评论: 被INTERSPEECH 2023接受
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[170] arXiv:2306.02579 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 跨语言迁移学习用于多语言语言模型的短语分割预测
标题: Cross-Lingual Transfer Learning for Phrase Break Prediction with Multilingual Language Model
Hoyeon Lee, Hyun-Wook Yoon, Jong-Hwan Kim, Jae-Min Kim
评论: 被INTERSPEECH 2023接受
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[171] arXiv:2306.02680 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: BeAts:使用多模态注意力融合的孟加拉语言语行为识别
标题: BeAts: Bengali Speech Acts Recognition using Multimodal Attention Fusion
Ahana Deb, Sayan Nag, Ayan Mahapatra, Soumitri Chattopadhyay, Aritra Marik, Pijush Kanti Gayen, Shankha Sanyal, Archi Banerjee, Samir Karmakar
评论: 被INTERSPEECH 2023接收
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[172] arXiv:2306.02719 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 每个输入的多个输出样本在单输出高斯过程中的应用
标题: Multiple output samples per input in a single-output Gaussian process
Jeremy H. M. Wong, Huayun Zhang, Nancy F. Chen
评论: 本文是在“庆祝贝叶斯学习在语音和语言处理及更广泛领域40周年的研讨会”上提出的,该研讨会是ASRU工作坊的一个卫星会议,于2023年12月20日举行。https://bayesian40.github.io/
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[173] arXiv:2306.02858 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 视频-LLaMA:用于视频理解的指令调优的视听语言模型
标题: Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
Hang Zhang, Xin Li, Lidong Bing
评论: 被EMNLP 2023的演示轨道接受;代码、预训练模型和数据集:https://github.com/DAMO-NLP-SG/Video-LLaMA
主题: 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[174] arXiv:2306.02902 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: N次射击的阿拉伯语语音识别中的Whisper基准测试
标题: N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition
Bashar Talafha, Abdul Waheed, Muhammad Abdul-Mageed
评论: 4页,INTERSPEECH 2023
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[175] arXiv:2306.03014 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 在预测性和生成性设置下侵入式和非侵入式语音增强指标的行为研究
标题: On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings
Danilo de Oliveira, Julius Richter, Jean-Marie Lemercier, Tal Peer, Timo Gerkmann
评论: 提交至ITG语音通信会议
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[176] arXiv:2306.03258 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: LipVoicer:基于唇读的无声视频生成语音
标题: LipVoicer: Generating Speech from Silent Videos Guided by Lip Reading
Yochai Yemini, Aviv Shamsian, Lior Bracha, Sharon Gannot, Ethan Fetaya
评论: ICLR 2024
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[177] arXiv:2306.03443 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 通过基于语音识别的转录进行阿尔茨海默病分类:探讨标点符号和停顿的影响
标题: Alzheimer Disease Classification through ASR-based Transcriptions: Exploring the Impact of Punctuation and Pauses
Lucía Gómez-Zaragozá, Simone Wills, Cristian Tejedor-Garcia, Javier Marín-Morales, Mariano Alcañiz, Helmer Strik
期刊参考: 发表于2023年国际语音会议,第2403-2407页,都柏林,爱尔兰,20-24日,2023年8月
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP)
[178] arXiv:2306.03444 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 口语阅读准确性的自动评估用于阅读诊断
标题: Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics
Bo Molenaar, Cristian Tejedor-Garcia, Helmer Strik, Catia Cucchiarini
期刊参考: 第24届语音处理国际会议论文集2023,第5232-5236页,爱尔兰都柏林,2023年8月20日至24日
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP)
[179] arXiv:2306.03504 (交叉列表自 cs.CV) [中文pdf, pdf, 其他]
标题: Ada-TTA:面向自适应高质量文本到说话头像合成
标题: Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis
Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
评论: 被ICML 2023研讨会接受,6页,3图
主题: 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[180] arXiv:2306.03509 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: Mega-TTS:具有内在归纳偏置的规模零样本文本到语音
标题: Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias
Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[181] arXiv:2306.03646 (交叉列表自 cs.LG) [中文pdf, pdf, 其他]
标题: 基于拟声词的舞蹈生成
标题: Dance Generation by Sound Symbolic Words
Miki Okamura, Naruya Kondo, Tatsuki Fushimi, Maki Sakamoto, Yoichi Ochiai
主题: 机器学习 (cs.LG) ; 人机交互 (cs.HC) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[182] arXiv:2306.03773 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 一些声音过于常见:使用Common Voice数据集构建公平的语音识别系统
标题: Some voices are too common: Building fair speech recognition systems using the Common Voice dataset
Lucas Maison, Yannick Estève
评论: 5页,3图。已被Interspeech 2023接收
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[183] arXiv:2306.04054 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: RescueSpeech:用于搜索和救援领域语音识别的德语语料库
标题: RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain
Sangeet Sagar, Mirco Ravanelli, Bernd Kiefer, Ivana Kruijff Korbayova, Josef van Genabith
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[184] arXiv:2306.04076 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 基于转换器的统一语音-文本表示的纯文本领域自适应
标题: Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer
Lu Huang, Boyu Li, Jun Zhang, Lu Lu, Zejun Ma
评论: 提交至2023年国际语音会议
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[185] arXiv:2306.04190 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 基于语音识别的阅读教学辅导系统:如何优化对一年级学生的反馈
标题: An ASR-Based Tutor for Learning to Read: How to Optimize Feedback to First Graders
Yu Bai, Cristian Tejedor-Garcia, Ferdy Hubers, Catia Cucchiarini, Helmer Strik
评论: 已发表(双盲同行评审)于SPECOM 2021
期刊参考: 在:Karpov A.,Potapova R.(编辑)《语音与计算机》。SPECOM 2021。计算机科学讲座笔记,第12997卷。Springer,查姆
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP)
[186] arXiv:2306.04233 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 从预训练语言模型进行迁移学习可提高端到端语音摘要生成
标题: Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization
Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Takatomo Kano, Atsunori Ogawa, Marc Delcroix
评论: 被Interspeech 2023接受
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[187] arXiv:2306.04276 (交叉列表自 physics.ao-ph) [中文pdf, pdf, 其他]
标题: 分布式声学传感和水听器阵列用于定位水下声源的测试实验
标题: Test experiments with distributed acoustic sensing and hydrophone arrays for locating underwater sound sources
Jörg Rychen, Patrick Paitz, Pascal Edme, Krystyna Smolinski, Joeri Brackenhoff, Andreas Fichtner
评论: 数据描述
主题: 大气与海洋物理 (physics.ao-ph) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 生物物理 (physics.bio-ph)
[188] arXiv:2306.04306 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 阿尔法象:利用构音属性的跨语言音素识别
标题: Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes
Kevin Glocker (1), Aaricia Herygers (1), Munir Georges (1 and 2) ((1) AImotion Bavaria Technische Hochschule Ingolstadt, (2) Intel Labs Germany)
评论: 5页,2图,2表,已被接受至INTERSPEECH 2023;已发表版本
期刊参考: 流程 INTERSPEECH 2023,2258-2262
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[189] arXiv:2306.04374 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 标签感知的语音表示学习用于语言识别
标题: Label Aware Speech Representation Learning For Language Identification
Shikhar Vashishth, Shikhar Bharadwaj, Sriram Ganapathy, Ankur Bapna, Min Ma, Wei Han, Vera Axelrod, Partha Talukdar
评论: 被Interspeech 2023接收
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[190] arXiv:2306.04428 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 赞比西语音:用于赞比亚语言的多语言语音语料库
标题: Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages
Claytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos
评论: 已被INTERSPEECH 2023接受。此预印本版本与被INTERSPEECH 2023接受的版本略有不同:图1未包含在INTERSPEECH 2023中!
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[191] arXiv:2306.04655 (交叉列表自 eess.SP) [中文pdf, pdf, 其他]
标题: 通过使用分辨率变换的频谱图进行深度学习的调制分类
标题: Modulation Classification Through Deep Learning Using Resolution Transformed Spectrograms
Muhammad Waqas, Muhammad Ashraf, Muhammad Zakwan
评论: 15页,12图
主题: 信号处理 (eess.SP) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[192] arXiv:2306.04980 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 使用预训练语言模型和大语言模型评估ESL语音的短语中断
标题: Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models
Zhiyi Wang, Shaoguang Mao, Wenshan Wu, Yan Xia, Yan Deng, Jonathan Tien
评论: 被InterSpeech 2023接受。arXiv管理员注释:与arXiv:2210.16029有大量文本重叠
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[193] arXiv:2306.04987 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 基于注意力机制的三维语音增强卷积循环神经网络
标题: Convolutional Recurrent Neural Network with Attention for 3D Speech Enhancement
Han Yin, Jisheng Bai, Mou Wang, Siwei Huang, Yafei Jia, Jianfeng Chen
评论: 发表于IEEE信号处理、通信与计算国际会议(ICSPCC 2023)
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[194] arXiv:2306.05004 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: VIFS:端到端变分推理用于 Foley 音效合成
标题: VIFS: An End-to-End Variational Inference for Foley Sound Synthesis
Junhyeok Lee, Hyeonuk Nam, Yong-Hwa Park
评论: DCASE 2023挑战赛任务7
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[195] arXiv:2306.05088 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 对话的艺术:使用孪生RNN测量二语语音趋同和有意模仿
标题: The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN
Zheng Yuan (1 and 2), Aldo Pastore (1 and 2), Dorina de Jong (1 and 2), Hao Xu (3), Luciano Fadiga (1 and 2), Alessandro D'Ausilio (1 and 2) ((1) Istituto Italiano di Tecnologia, Italy, (2) Università degli Studi di Ferrara, Italy, (3) University of California San Diego, USA)
评论: 被INTERSPEECH 2023接收
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[196] arXiv:2306.05245 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 基于音频-文本的关键词 spotting 的匹配隐编码
标题: Matching Latent Encoding for Audio-Text based Keyword Spotting
Kumari Nishu, Minsik Cho, Devang Naik
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[197] arXiv:2306.05320 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: KIT的多语言语音翻译系统用于IWSLT 2023
标题: KIT's Multilingual Speech Translation System for IWSLT 2023
Danni Liu, Thai Binh Nguyen, Sai Koneru, Enes Yavuz Ugan, Ngoc-Quan Pham, Tuan-Nam Nguyen, Tu Anh Dinh, Carlos Mullov, Alexander Waibel, Jan Niehues
评论: IWSLT 2023
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD)
[198] arXiv:2306.05358 (交叉列表自 cs.CR) [中文pdf, pdf, 其他]
标题: 先进驾驶辅助系统中针对不可闻命令攻击的可信传感器融合
标题: Trustworthy Sensor Fusion against Inaudible Command Attacks in Advanced Driver-Assistance System
Jiwei Guan, Lei Pan, Chen Wang, Shui Yu, Longxiang Gao, Xi Zheng
主题: 密码学与安全 (cs.CR) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[199] arXiv:2306.05374 (交叉列表自 physics.med-ph) [中文pdf, pdf, 其他]
标题: 基于EEG在语音产生过程中预测超声舌图
标题: Towards Ultrasound Tongue Image prediction from EEG during speech production
Tamás Gábor Csapó, Frigyes Viktor Arthur, Péter Nagy, Ádám Boncz
评论: 录用于Interspeech 2023
期刊参考: 2023年Interspeech会议论文集
主题: 医学物理 (physics.med-ph) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 图像与视频处理 (eess.IV)
[200] arXiv:2306.05535 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 使用音频数据检测政治辩论、演讲和访谈中的值得核查的主张
标题: Detecting Check-Worthy Claims in Political Debates, Speeches, and Interviews Using Audio Data
Petar Ivanov, Ivan Koychev, Momchil Hardalov, Preslav Nakov
评论: 值得核查、事实核查、假新闻、 misinformation(错误信息)、 disinformation(虚假信息)、政治辩论、多模态
期刊参考: ICASSP 2024
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 信息检索 (cs.IR) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
总共 302 条目 : 1-50 51-100 101-150 151-200 201-250 251-300 301-302
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号