声音

2023年06月的作者和标题

总共 302 条目 : 1-50 51-100 101-150 151-200 201-250 251-300 301-302

显示最多 50 每页条目：较少 | 更多 | 所有

[151] arXiv:2306.01015 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：如何估计预训练语音模型的可迁移性？

标题： How to Estimate Model Transferability of Pre-Trained Speech Models?

Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Shuo-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath

评论：已接受发表于Interspeech。代码地址：https://github.com/virginiakm1988/LogME-CTC。修正了一个拼写错误。

主题：计算与语言 (cs.CL) ; 神经与进化计算 (cs.NE) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[152] arXiv:2306.01031 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：旁路时间分类：基于有缺陷 transcripts 的弱监督自动语音识别

标题： Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect Transcripts

Dongji Gao, Matthew Wiesner, Hainan Xu, Leibny Paola Garcia, Daniel Povey, Sanjeev Khudanpur

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[153] arXiv:2306.01100 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题： ALO-VC：任意到任意低延迟一次性语音转换

标题： ALO-VC: Any-to-any Low-latency One-shot Voice Conversion

Bohan Wang, Damien Ronssin, Milos Cernak

评论：已接受发表于Interspeech 2023。一些音频样本可在 <https://bohan7.github.io/ALO-VC-demo/> 获取。

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[154] arXiv:2306.01201 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：何时发言的学习：离线模型同时语音到语音翻译中的延迟与质量权衡

标题： Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models

Liam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan McGuire, Victor Zordan

评论：将于2023年INTERSPEECH会议上发表

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[155] arXiv:2306.01208 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：适应一个无法适应的ASR系统

标题： Adapting an Unadaptable ASR System

Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill

评论：第十一届语音通信国际会议论文集

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[156] arXiv:2306.01303 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题： DistilXLSR：一种轻量级跨语言语音表示模型

标题： DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model

Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Jinfeng Bai

评论：已被INTERSPEECH 2023录用

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[157] arXiv:2306.01327 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：基于基础模型和最优传输的语音翻译：UPC在IWSLT23中的表现

标题： Speech Translation with Foundation Models and Optimal Transport: UPC at IWSLT23

Ioannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-jussà

评论： IWSLT 2023

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[158] arXiv:2306.01332 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：基于帧的频谱处理的相位器效果的可微灰盒建模

标题： Differentiable Grey-box Modelling of Phaser Effects using Frame-based Spectral Processing

Alistair Carson, Cassia Valentini-Botinhao, Simon King, Stefan Bilbao

评论：已接受发表于DAFx23会议论文集，丹麦哥本哈根，2023年9月

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[159] arXiv:2306.01385 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：任务无关的语音表示模型结构化剪枝

标题： Task-Agnostic Structured Pruning of Speech Representation Models

Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan

评论：被INTERSPEECH 2023接受

期刊参考： INTERSPEECH (2023) 231-235

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[160] arXiv:2306.01411 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题： HD-DEMUCS：具有异构解码器的通用语音恢复

标题： HD-DEMUCS: General Speech Restoration with Heterogeneous Decoders

Doyeon Kim, Soo-Whan Chung, Hyewon Han, Youna Ji, Hong-Goo Kang

评论：被INTERSPEECH 2023接受

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[161] arXiv:2306.01433 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：盲音频带宽扩展：一种基于扩散的零样本方法

标题： Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach

Eloi Moliner, Filip Elvander, Vesa Välimäki

评论：提交至IEEE/ACM音频、语音和语言处理汇刊

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[162] arXiv:2306.01522 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：听觉表征对于估计声道信息有效

标题： Auditory Representation Effective for Estimating Vocal Tract Information

Toshio Irino, Shintaro Doan

评论：该手稿是2023年8月25日被Proc. APSIPA ASC 2023接受发表后的修订版本

期刊参考： APSIPA ASC 2023 会议录

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[163] arXiv:2306.01864 (交叉列表自 cs.LG) [中文pdf, pdf, 其他]: 标题：从无标签数据中使用不同预训练领域的对比学习发现 COVID-19 咳嗽和呼吸模式

标题： Discovering COVID-19 Coughing and Breathing Patterns from Unlabeled Data Using Contrastive Learning with Varying Pre-Training Domains

Jinjin Cai, Sudip Vhaduri, Xiao Luo

评论：被INTERSPEECH 2023接收

期刊参考： INTERSPEECH 2023论文集

主题：机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[164] arXiv:2306.01942 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题： Whisper和GPT-2中情境偏差是否仍然有效？

标题： Can Contextual Biasing Remain Effective with Whisper and GPT-2?

Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C. Woodland

评论：将出现在2023年国际语音会议上

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[165] arXiv:2306.02105 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：推进非洲口音语音识别：可推广的ASR模型的认知不确定性驱动的数据选择

标题： Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models

Bonaventure F. P. Dossou

评论：被ACL SRW 2025接受

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[166] arXiv:2306.02153 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：声学词嵌入用于未转录目标语言的持续预训练和学习池化

标题： Acoustic Word Embeddings for Untranscribed Target Languages with Continued Pretraining and Learned Pooling

Ramon Sanabria, Ondrej Klejch, Hao Tang, Sharon Goldwater

评论：被国际语音会议2023接收

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[167] arXiv:2306.02273 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：端到端联合目标和非目标说话人语音识别

标题： End-to-End Joint Target and Non-Target Speakers ASR

Ryo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando

评论：被Interspeech 2023接收

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[168] arXiv:2306.02317 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题： SpellMapper：一种基于n-gram映射的候选检索非自回归神经拼写检查器，用于ASR定制

标题： SpellMapper: A non-autoregressive neural spellchecker for ASR customization with candidate retrieval based on n-gram mappings

Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg

评论：被INTERSPEECH 2023接受

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[169] arXiv:2306.02534 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：使用发音特征的L2音素用于鲁棒语音识别

标题： Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition

Jisung Wang, Haram Lee, Myungwoo Oh

评论：被INTERSPEECH 2023接受

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[170] arXiv:2306.02579 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：跨语言迁移学习用于多语言语言模型的短语分割预测

标题： Cross-Lingual Transfer Learning for Phrase Break Prediction with Multilingual Language Model

Hoyeon Lee, Hyun-Wook Yoon, Jong-Hwan Kim, Jae-Min Kim

评论：被INTERSPEECH 2023接受

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[171] arXiv:2306.02680 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题： BeAts：使用多模态注意力融合的孟加拉语言语行为识别

标题： BeAts: Bengali Speech Acts Recognition using Multimodal Attention Fusion

Ahana Deb, Sayan Nag, Ayan Mahapatra, Soumitri Chattopadhyay, Aritra Marik, Pijush Kanti Gayen, Shankha Sanyal, Archi Banerjee, Samir Karmakar

评论：被INTERSPEECH 2023接收

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[172] arXiv:2306.02719 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：每个输入的多个输出样本在单输出高斯过程中的应用

标题： Multiple output samples per input in a single-output Gaussian process

Jeremy H. M. Wong, Huayun Zhang, Nancy F. Chen

评论：本文是在“庆祝贝叶斯学习在语音和语言处理及更广泛领域40周年的研讨会”上提出的，该研讨会是ASRU工作坊的一个卫星会议，于2023年12月20日举行。https://bayesian40.github.io/

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[173] arXiv:2306.02858 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：视频-LLaMA：用于视频理解的指令调优的视听语言模型

标题： Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Hang Zhang, Xin Li, Lidong Bing

评论：被EMNLP 2023的演示轨道接受；代码、预训练模型和数据集：https://github.com/DAMO-NLP-SG/Video-LLaMA

主题：计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[174] arXiv:2306.02902 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题： N次射击的阿拉伯语语音识别中的Whisper基准测试

标题： N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition

Bashar Talafha, Abdul Waheed, Muhammad Abdul-Mageed

评论： 4页，INTERSPEECH 2023

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[175] arXiv:2306.03014 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：在预测性和生成性设置下侵入式和非侵入式语音增强指标的行为研究

标题： On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings

Danilo de Oliveira, Julius Richter, Jean-Marie Lemercier, Tal Peer, Timo Gerkmann

评论：提交至ITG语音通信会议

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[176] arXiv:2306.03258 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： LipVoicer：基于唇读的无声视频生成语音

标题： LipVoicer: Generating Speech from Silent Videos Guided by Lip Reading

Yochai Yemini, Aviv Shamsian, Lior Bracha, Sharon Gannot, Ethan Fetaya

评论： ICLR 2024

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[177] arXiv:2306.03443 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：通过基于语音识别的转录进行阿尔茨海默病分类：探讨标点符号和停顿的影响

标题： Alzheimer Disease Classification through ASR-based Transcriptions: Exploring the Impact of Punctuation and Pauses

Lucía Gómez-Zaragozá, Simone Wills, Cristian Tejedor-Garcia, Javier Marín-Morales, Mariano Alcañiz, Helmer Strik

期刊参考：发表于2023年国际语音会议，第2403-2407页，都柏林，爱尔兰，20-24日，2023年8月

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP)
[178] arXiv:2306.03444 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：口语阅读准确性的自动评估用于阅读诊断

标题： Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics

Bo Molenaar, Cristian Tejedor-Garcia, Helmer Strik, Catia Cucchiarini

期刊参考：第24届语音处理国际会议论文集2023，第5232-5236页，爱尔兰都柏林，2023年8月20日至24日

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP)
[179] arXiv:2306.03504 (交叉列表自 cs.CV) [中文pdf, pdf, 其他]: 标题： Ada-TTA：面向自适应高质量文本到说话头像合成

标题： Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao

评论：被ICML 2023研讨会接受，6页，3图

主题：计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[180] arXiv:2306.03509 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题： Mega-TTS：具有内在归纳偏置的规模零样本文本到语音

标题： Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[181] arXiv:2306.03646 (交叉列表自 cs.LG) [中文pdf, pdf, 其他]: 标题：基于拟声词的舞蹈生成

标题： Dance Generation by Sound Symbolic Words

Miki Okamura, Naruya Kondo, Tatsuki Fushimi, Maki Sakamoto, Yoichi Ochiai

主题：机器学习 (cs.LG) ; 人机交互 (cs.HC) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[182] arXiv:2306.03773 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：一些声音过于常见：使用Common Voice数据集构建公平的语音识别系统

标题： Some voices are too common: Building fair speech recognition systems using the Common Voice dataset

Lucas Maison, Yannick Estève

评论： 5页，3图。已被Interspeech 2023接收

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[183] arXiv:2306.04054 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题： RescueSpeech：用于搜索和救援领域语音识别的德语语料库

标题： RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain

Sangeet Sagar, Mirco Ravanelli, Bernd Kiefer, Ivana Kruijff Korbayova, Josef van Genabith

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[184] arXiv:2306.04076 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：基于转换器的统一语音-文本表示的纯文本领域自适应

标题： Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer

Lu Huang, Boyu Li, Jun Zhang, Lu Lu, Zejun Ma

评论：提交至2023年国际语音会议

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[185] arXiv:2306.04190 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：基于语音识别的阅读教学辅导系统：如何优化对一年级学生的反馈

标题： An ASR-Based Tutor for Learning to Read: How to Optimize Feedback to First Graders

Yu Bai, Cristian Tejedor-Garcia, Ferdy Hubers, Catia Cucchiarini, Helmer Strik

评论：已发表（双盲同行评审）于SPECOM 2021

期刊参考：在：Karpov A.，Potapova R.（编辑）《语音与计算机》。SPECOM 2021。计算机科学讲座笔记，第12997卷。Springer，查姆

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP)
[186] arXiv:2306.04233 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：从预训练语言模型进行迁移学习可提高端到端语音摘要生成

标题： Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization

Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Takatomo Kano, Atsunori Ogawa, Marc Delcroix

评论：被Interspeech 2023接受

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[187] arXiv:2306.04276 (交叉列表自 physics.ao-ph) [中文pdf, pdf, 其他]: 标题：分布式声学传感和水听器阵列用于定位水下声源的测试实验

标题： Test experiments with distributed acoustic sensing and hydrophone arrays for locating underwater sound sources

Jörg Rychen, Patrick Paitz, Pascal Edme, Krystyna Smolinski, Joeri Brackenhoff, Andreas Fichtner

评论：数据描述

主题：大气与海洋物理 (physics.ao-ph) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 生物物理 (physics.bio-ph)
[188] arXiv:2306.04306 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：阿尔法象：利用构音属性的跨语言音素识别

标题： Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes

Kevin Glocker (1), Aaricia Herygers (1), Munir Georges (1 and 2) ((1) AImotion Bavaria Technische Hochschule Ingolstadt, (2) Intel Labs Germany)

评论： 5页，2图，2表，已被接受至INTERSPEECH 2023；已发表版本

期刊参考：流程 INTERSPEECH 2023，2258-2262

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[189] arXiv:2306.04374 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：标签感知的语音表示学习用于语言识别

标题： Label Aware Speech Representation Learning For Language Identification

Shikhar Vashishth, Shikhar Bharadwaj, Sriram Ganapathy, Ankur Bapna, Min Ma, Wei Han, Vera Axelrod, Partha Talukdar

评论：被Interspeech 2023接收

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[190] arXiv:2306.04428 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：赞比西语音：用于赞比亚语言的多语言语音语料库

标题： Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages

Claytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos

评论：已被INTERSPEECH 2023接受。此预印本版本与被INTERSPEECH 2023接受的版本略有不同：图1未包含在INTERSPEECH 2023中！

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[191] arXiv:2306.04655 (交叉列表自 eess.SP) [中文pdf, pdf, 其他]: 标题：通过使用分辨率变换的频谱图进行深度学习的调制分类

标题： Modulation Classification Through Deep Learning Using Resolution Transformed Spectrograms

Muhammad Waqas, Muhammad Ashraf, Muhammad Zakwan

评论： 15页，12图

主题：信号处理 (eess.SP) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[192] arXiv:2306.04980 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：使用预训练语言模型和大语言模型评估ESL语音的短语中断

标题： Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models

Zhiyi Wang, Shaoguang Mao, Wenshan Wu, Yan Xia, Yan Deng, Jonathan Tien

评论：被InterSpeech 2023接受。arXiv管理员注释：与arXiv:2210.16029有大量文本重叠

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[193] arXiv:2306.04987 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：基于注意力机制的三维语音增强卷积循环神经网络

标题： Convolutional Recurrent Neural Network with Attention for 3D Speech Enhancement

Han Yin, Jisheng Bai, Mou Wang, Siwei Huang, Yafei Jia, Jianfeng Chen

评论：发表于IEEE信号处理、通信与计算国际会议（ICSPCC 2023）

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[194] arXiv:2306.05004 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题： VIFS：端到端变分推理用于 Foley 音效合成

标题： VIFS: An End-to-End Variational Inference for Foley Sound Synthesis

Junhyeok Lee, Hyeonuk Nam, Yong-Hwa Park

评论： DCASE 2023挑战赛任务7

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[195] arXiv:2306.05088 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：对话的艺术：使用孪生RNN测量二语语音趋同和有意模仿

标题： The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN

Zheng Yuan (1 and 2), Aldo Pastore (1 and 2), Dorina de Jong (1 and 2), Hao Xu (3), Luciano Fadiga (1 and 2), Alessandro D'Ausilio (1 and 2) ((1) Istituto Italiano di Tecnologia, Italy, (2) Università degli Studi di Ferrara, Italy, (3) University of California San Diego, USA)

评论：被INTERSPEECH 2023接收

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[196] arXiv:2306.05245 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：基于音频-文本的关键词 spotting 的匹配隐编码

标题： Matching Latent Encoding for Audio-Text based Keyword Spotting

Kumari Nishu, Minsik Cho, Devang Naik

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[197] arXiv:2306.05320 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题： KIT的多语言语音翻译系统用于IWSLT 2023

标题： KIT's Multilingual Speech Translation System for IWSLT 2023

Danni Liu, Thai Binh Nguyen, Sai Koneru, Enes Yavuz Ugan, Ngoc-Quan Pham, Tuan-Nam Nguyen, Tu Anh Dinh, Carlos Mullov, Alexander Waibel, Jan Niehues

评论： IWSLT 2023

主题：计算与语言 (cs.CL) ; 声音 (cs.SD)
[198] arXiv:2306.05358 (交叉列表自 cs.CR) [中文pdf, pdf, 其他]: 标题：先进驾驶辅助系统中针对不可闻命令攻击的可信传感器融合

标题： Trustworthy Sensor Fusion against Inaudible Command Attacks in Advanced Driver-Assistance System

Jiwei Guan, Lei Pan, Chen Wang, Shui Yu, Longxiang Gao, Xi Zheng

主题：密码学与安全 (cs.CR) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[199] arXiv:2306.05374 (交叉列表自 physics.med-ph) [中文pdf, pdf, 其他]: 标题：基于EEG在语音产生过程中预测超声舌图

标题： Towards Ultrasound Tongue Image prediction from EEG during speech production

Tamás Gábor Csapó, Frigyes Viktor Arthur, Péter Nagy, Ádám Boncz

评论：录用于Interspeech 2023

期刊参考： 2023年Interspeech会议论文集

主题：医学物理 (physics.med-ph) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 图像与视频处理 (eess.IV)
[200] arXiv:2306.05535 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：使用音频数据检测政治辩论、演讲和访谈中的值得核查的主张

标题： Detecting Check-Worthy Claims in Political Debates, Speeches, and Interviews Using Audio Data

Petar Ivanov, Ivan Koychev, Momchil Hardalov, Preslav Nakov

评论：值得核查、事实核查、假新闻、 misinformation（错误信息）、 disinformation（虚假信息）、政治辩论、多模态

期刊参考： ICASSP 2024

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 信息检索 (cs.IR) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)

总共 302 条目 : 1-50 51-100 101-150 151-200 201-250 251-300 301-302

显示最多 50 每页条目：较少 | 更多 | 所有

声音

2023年06月 的作者和标题

2023年06月的作者和标题