多媒体

2025年08月的作者和标题

总共 151 条目 : 1-50 51-100 101-150 151-151

显示最多 50 每页条目：较少 | 更多 | 所有

[101] arXiv:2508.11872 (交叉列表自 cs.CY) [中文pdf, pdf, 其他]: 标题：通过虚拟化身的歌唱课程：通过人工智能生成的音乐和数字具身化增强学生参与度

标题： Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Xinxing Wu

评论： 17页，4图，3表

主题：计算机与社会 (cs.CY) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[102] arXiv:2508.11873 (交叉列表自 cs.CY) [中文pdf, pdf, html, 其他]: 标题： SimInterview：通过基于大型语言模型的多语言模拟面试培训系统变革商业教育

标题： SimInterview: Transforming Business Education through Large Language Model-Based Simulated Multilingual Interview Training System

Truong Thanh Hung Nguyen, Tran Diem Quynh Nguyen, Hoang Loc Cao, Thi Cam Thanh Tran, Thi Cam Mai Truong, Hung Cao

评论：作为会议论文发表于ICEFM 2025

主题：计算机与社会 (cs.CY) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[103] arXiv:2508.12334 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： HDA-SELD：基于多级数据增强的分层跨模态蒸馏方法用于低资源音频-视觉声音事件定位与检测

标题： HDA-SELD: Hierarchical Cross-Modal Distillation with Multi-Level Data Augmentation for Low-Resource Audio-Visual Sound Event Localization and Detection

Qing Wang, Ya Jiang, Hang Chen, Sabato Marco Siniscalchi, Jun Du, Jianqing Gao

评论： 13页，8图

主题：声音 (cs.SD) ; 多媒体 (cs.MM)
[104] arXiv:2508.12842 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：多源多模态渐进域自适应用于音视频欺骗检测

标题： Multi-source Multimodal Progressive Domain Adaption for Audio-Visual Deception Detection

Ronghao Lin, Sijie Mai, Ying Zeng, Qiaolin He, Aolin Xiong, Haifeng Hu

评论：已被ACM MM 2025 SVC研讨会接受

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[105] arXiv:2508.12854 (交叉列表自 cs.AI) [中文pdf, pdf, 其他]: 标题： E3RG：使用多模态大语言模型构建显式情绪驱动的共情响应生成系统

标题： E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model

Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan

评论：被ACM MM 2025大奖赛接受

主题：人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[106] arXiv:2508.13142 (交叉列表自 cs.CV) [中文pdf, pdf, 其他]: 标题：多模态大语言模型在空间智能上的整体评估

标题： Holistic Evaluation of Multimodal LLMs on Spatial Intelligence

Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang

主题：计算机视觉与模式识别 (cs.CV) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 机器人技术 (cs.RO)
[107] arXiv:2508.13428 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：减轻多选题回答中的简单选项偏差

标题： Mitigating Easy Option Bias in Multiple-Choice Question Answering

Hao Zhang, Chen Li, Basura Fernando

评论：正在审核中

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[108] arXiv:2508.13710 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]: 标题：基于遗传算法的视频隐写中感兴趣区域选择的优化

标题： Optimizing Region of Interest Selection for Effective Embedding in Video Steganography Based on Genetic Algorithms

Nizheen A. Ali, Ramadhan J. Mstafa

评论： 19页，7图，4表

期刊参考：计算机系统科学与工程 2023 年，47(2)，1451-1469

主题：图像与视频处理 (eess.IV) ; 密码学与安全 (cs.CR) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[109] arXiv:2508.14222 (交叉列表自 cs.NI) [中文pdf, pdf, html, 其他]: 标题： StarStream：空间网络上的实时视频分析

标题： StarStream: Live Video Analytics over Space Networking

Miao Zhang, Jiaxing Li, Haoyuan Zhao, Linfeng Shen, Jiangchuan Liu

评论：被MM'24接受

主题：网络与互联网架构 (cs.NI) ; 多媒体 (cs.MM)
[110] arXiv:2508.14237 (交叉列表自 cs.NI) [中文pdf, pdf, html, 其他]: 标题： OmniSense：面向360度视频的边缘辅助在线分析

标题： OmniSense: Towards Edge-Assisted Online Analytics for 360-Degree Videos

Miao Zhang, Yifei Zhu, Linfeng Shen, Fangxin Wang, Jiangchuan Liu

评论： 10页；被INFOCOM'23接收

主题：网络与互联网架构 (cs.NI) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[111] arXiv:2508.14475 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题：细粒度图像质量评估用于感知图像修复

标题： Fine-grained Image Quality Assessment for Perceptual Image Restoration

Xiangfei Sheng, Xiaofeng Pan, Zhichao Yang, Pengfei Chen, Leida Li

评论： 9页，6图

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[112] arXiv:2508.14706 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：岐珍GPT：面向传统中医的多模态大语言模型

标题： ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[113] arXiv:2508.15003 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题：基于事件的可扩展视频流传输用于具有MoQ的机器

标题： Scalable Event-Based Video Streaming for Machines with MoQ

Andrew C. Freeman

评论：被接受到ACM Mile High Video 2025

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[114] arXiv:2508.15418 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题： LLaSO：大型语言和语音模型可重复研究的基础框架

标题： LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[115] arXiv:2508.15690 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]: 标题： GRAFT：文本对齐的图和表推理——结构化指令遵循和视觉推理的基准

标题： GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning

Abhigya Verma, Sriram Puttagunta, Seganrasan Subramanian, Sravan Ramachandran

评论： 25页，10张表格，3幅图

主题：人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[116] arXiv:2508.15772 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：视觉自回归模型用于指令引导的图像编辑

标题： Visual Autoregressive Modeling for Instruction-Guided Image Editing

Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei

评论：源代码和模型可在 https://github.com/HiDream-ai/VAREdit 获取

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[117] arXiv:2508.16148 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]: 标题：多模态多项选择题回答的分层视觉-语言推理

标题： Hierarchical Vision-Language Reasoning for Multimodal Multiple-Choice Question Answering

Ao Zhou, Zebo Gu, Tenghao Sun, Jiawen Chen, Mingsheng Tu, Zifeng Cheng, Yafeng Yin, Zhiwei Jiang, Qing Gu

评论：这篇论文已被ACM MM 2025接受

主题：信息检索 (cs.IR) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM)
[118] arXiv:2508.16188 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：眼见为信：用于表达性语音生成的情感感知音视频语言建模

标题： Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation

Weiting Tan, Jiachen Lian, Hirofumi Inaguma, Paden Tomasello, Philipp Koehn, Xutai Ma

评论： EMNLP 2025（成果）

主题：计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[119] arXiv:2508.16291 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：通过双流Mamba金字塔网络学习长距离动作表示用于花样滑冰评估

标题： Learning Long-Range Action Representation by Two-Stream Mamba Pyramid Network for Figure Skating Assessment

Fengshun Wang, Qiurui Wang, Peilin Zhao

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[120] arXiv:2508.16439 (交叉列表自 cs.CY) [中文pdf, pdf, html, 其他]: 标题：儿科MQA：一个多模态儿科问答基准

标题： PediatricsMQA: a Multi-modal Pediatrics Question Answering Benchmark

Adil Bahaj, Oumaima Fadi, Mohamed Chetouani, Mounir Ghogho

主题：计算机与社会 (cs.CY) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 图形学 (cs.GR) ; 多媒体 (cs.MM)
[121] arXiv:2508.16535 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]: 标题：基于传统显示器的眼动追踪实时三维光场观看

标题： Real-time 3D Light-field Viewing with Eye-tracking on Conventional Displays

Trung Hieu Pham, Chanh Minh Tran, Eiji Kamioka, Xuan Tan Phan

主题：图形学 (cs.GR) ; 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[122] arXiv:2508.16582 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题：预测虚拟现实中的用户抓取意图

标题： Predicting User Grasp Intentions in Virtual Reality

Linghao Zeng

评论： 45页，24张图。这是作为巴黎综合理工学院（PSL大学）M2 IASD（人工智能、系统、数据）项目的一部分提交的硕士论文

主题：人机交互 (cs.HC) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[123] arXiv:2508.16605 (交叉列表自 cs.HC) [中文pdf, pdf, 其他]: 标题：太极的节奏：通过交互视觉在虚拟现实中的文化传承复兴

标题： The Rhythm of Tai Chi: Revitalizing Cultural Heritage in Virtual Reality through Interactive Visuals

Xianghan Wang

评论：被接收至2025年第四届国际图像处理与媒体计算会议（ICIPMC 2025）论文集。ISBN：979-8-3315-1363-4。© 2025 IEEE。这是作者接受的稿件。最终版本将通过IEEE Xplore提供。

主题：人机交互 (cs.HC) ; 多媒体 (cs.MM)
[124] arXiv:2508.16618 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题：看得见的并不一定是真实的：解决深度伪造在低技术环境中的社会影响

标题： Seeing Isn't Believing: Addressing the Societal Impact of Deepfakes in Low-Tech Environments

Azmine Toushik Wasi, Rahatun Nesa Priti, Mahir Absar Khan, Abdur Rahman, Mst Rafia Islam

评论：被接受到ACM MM 2025研讨会有害内容在在线网络上的扩散（DHOW）

主题：人机交互 (cs.HC) ; 计算机与社会 (cs.CY) ; 多媒体 (cs.MM) ; 应用 (stat.AP)
[125] arXiv:2508.16911 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]: 标题： MDD：一种用于文本和音乐条件二重舞生成的数据集

标题： MDD: A Dataset for Text-and-Music Conditioned Duet Dance Generation

Prerit Gupta, Jason Alexander Fotso-Puepi, Zhengyuan Li, Jay Mehta, Aniket Bera (Purdue University, West Lafayette, IN, USA)

评论：被ICCV 2025接受。项目页面：https://gprerit96.github.io/mdd-page

主题：图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[126] arXiv:2508.17025 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：概率时间掩码注意力用于跨视图在线动作检测

标题： Probabilistic Temporal Masked Attention for Cross-view Online Action Detection

Liping Xie, Yang Tan, Shicheng Jing, Huimin Lu, Kanjian Zhang

评论： 12页，6图，被IEEE多媒体汇刊（TMM）接收，待发表

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[127] arXiv:2508.17121 (交叉列表自 cs.CR) [中文pdf, pdf, html, 其他]: 标题： SyncGuard：能够抵御不同步攻击的鲁棒音频水印技术

标题： SyncGuard: Robust Audio Watermarking Capable of Countering Desynchronization Attacks

Zhenliang Gan, Xiaoxiao Hu, Sheng Li, Zhenxing Qian, Xinpeng Zhang

评论：被ECAI 2025接收

主题：密码学与安全 (cs.CR) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[128] arXiv:2508.17270 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：时空人体-物体交互检测

标题： Spatial-Temporal Human-Object Interaction Detection

Xu Sun, Yunqing He, Tongwei Ren, Gangshan Wu

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[129] arXiv:2508.17280 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： MTNet：使用Transformer学习模态感知表示的RGBT跟踪

标题： MTNet: Learning modality-aware representation with transformer for RGBT tracking

Ruichao Hou, Boyue Xu, Tongwei Ren, Gangshan Wu

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[130] arXiv:2508.17342 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]: 标题： DanceEditor：面向具有开放词汇描述的可迭代编辑音乐驱动舞蹈生成

标题： DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions

Hengyuan Zhang, Zhe Li, Xingqun Qi, Mengze Li, Muyi Sun, Man Zhang, Sirui Han

期刊参考： ICCV 2025

主题：图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[131] arXiv:2508.17428 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题： py360tool：一个用于处理带有瓷砖的360视频的框架$^\circ$

标题： py360tool: Um framework para manipulação de vídeo 360$^\circ$ com ladrilhos

Henrique Domingues Garcia, Marcelo Menezes de Carvalho

评论：提交至WFA，2025年工具与应用研讨会，第31届巴西多媒体与网络系统研讨会的附属活动

主题：图像与视频处理 (eess.IV) ; 多媒体 (cs.MM)
[132] arXiv:2508.17920 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]: 标题：基于提示的多模态语义通信用于多光谱图像分割

标题： Prompt-based Multimodal Semantic Communication for Multi-spectral Image Segmentation

Haoshuo Zhang, Yufei Bo, Hongwei Zhang, Meixia Tao

评论：完整版，arXiv:2508.20057，已更新

主题：图像与视频处理 (eess.IV) ; 多媒体 (cs.MM)
[133] arXiv:2508.17965 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题： TuningIQA：直播摄像机调校的细粒度盲图像质量评估

标题： TuningIQA: Fine-Grained Blind Image Quality Assessment for Livestreaming Camera Tuning

Xiangfei Sheng, Zhichao Duan, Xiaofeng Pan, Yipo Huang, Zhichao Yang, Pengfei Chen, Leida Li

评论： 9页，8图

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[134] arXiv:2508.18673 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：基于平衡难度的定制教学：通过提示课程提升多模态思维链中的推理能力

标题： Tailored Teaching with Balanced Difficulty: Elevating Reasoning in Multimodal Chain-of-Thought via Prompt Curriculum

Xinglong Yang, Quan Feng, Zhongying Pan, Xiang Chen, Yu Tian, Wentong Li, Shuofei Qiao, Yuxia Geng, Xingyu Zhao, Sheng-Jun Huang

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[135] arXiv:2508.18734 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：通过路由器门控跨模态特征融合改进噪声鲁棒的视听语音识别

标题： Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion

DongHoon Lim, YoungChae Kim, Dong-Hyun Kim, Da-Hee Yang, Joon-Hyuk Chang

评论：被IEEE ASRU 2025接收

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP)
[136] arXiv:2508.18781 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]: 标题： AniME：用于长期动画生成的自适应多智能体规划

标题： AniME: Adaptive Multi-Agent Planning for Long Animation Generation

Lisai Zhang, Baohan Xu, Siqian Yang, Mingyu Yin, Jing Liu, Chao Xu, Siqi Wang, Yidi Wu, Yuxin Hong, Zihao Zhang, Yanzhang Liang, Yudong Jiang

评论： 2页，技术报告

主题：人工智能 (cs.AI) ; 多媒体 (cs.MM)
[137] arXiv:2508.18968 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题：无损4:2:0屏幕内容编码使用亮度引导的软上下文生成

标题： Lossless 4:2:0 Screen Content Coding Using Luma-Guided Soft Context Formation

Hannah Och, André Kaup

评论： 5页，4图，3表，已被EUSIPCO 2025接收

主题：图像与视频处理 (eess.IV) ; 多媒体 (cs.MM) ; 信号处理 (eess.SP)
[138] arXiv:2508.19262 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于节拍的MIDI表演节奏量化

标题： Beat-Based Rhythm Quantization of MIDI Performances

Maximilian Wachter, Sebastian Murgul, Michael Heizmann

评论：被接收为2025年第一届AES国际人工智能与机器学习音频会议（AIMLA LBDP）的最新演示论文。

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[139] arXiv:2508.19622 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题： PersoNo：混合现实中的个性化通知紧急程度分类器

标题： PersoNo: Personalised Notification Urgency Classifier in Mixed Reality

Jingyao Zheng, Haodi Weng, Xian Wang, Chengbin Cui, Sven Mayer, Chi-lok Tai, Lik-Hang Lee

评论：被ISMAR 2025接受

主题：人机交互 (cs.HC) ; 多媒体 (cs.MM)
[140] arXiv:2508.20088 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：音频故事：使用大型语言模型生成长篇叙事音频

标题： AudioStory: Generating Long-Form Narrative Audio with Large Language Models

Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[141] arXiv:2508.20181 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：通过对象感知偏好优化减轻多模态大语言模型中的幻觉

标题： Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization

Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara

评论： BMVC 2025

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM)
[142] arXiv:2508.20250 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题：基于iPhone 15 Pro Max LiDAR的2D视频流高效隐私保护背景去除

标题： Efficient and Privacy-Protecting Background Removal for 2D Video Streaming using iPhone 15 Pro Max LiDAR

Jessica Kinnevan, Naifa Alqahtani, Toral Chauhan

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[143] arXiv:2508.20476 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：面向包容性交流：从手语、口型和音频生成口语语言的统一框架

标题： Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio

Jeong Hun Yeo, Hyeongseop Rha, Sungjune Park, Junil Won, Yong Man Ro

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS) ; 图像与视频处理 (eess.IV)
[144] arXiv:2508.20513 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MoTAS：从TTS增强语音中基于Moe的特征选择用于增强的多模态阿尔茨海默病早期筛查

标题： MoTAS: MoE-Guided Feature Selection from TTS-Augmented Speech for Enhanced Multimodal Alzheimer's Early Screening

Yongqi Shao, Binxin Mei, Cong Tan, Hong Huo, Tao Fang

主题：声音 (cs.SD) ; 多媒体 (cs.MM)
[145] arXiv:2508.20665 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：阿马迪乌斯：具有双向属性建模的自回归符号音乐模型

标题： Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music

Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song

评论：正在审核中

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[146] arXiv:2508.20670 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： “幽默、艺术还是虚假信息？”：一种用于意图感知的合成图像检测多模态数据集

标题： "Humor, Art, or Misinformation?": A Multimodal Dataset for Intent-Aware Synthetic Image Detection

Anastasios Skoularikis, Stefanos-Iordanis Papadopoulos, Symeon Papadopoulos, Panagiotis C. Petrantonakis

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[147] arXiv:2508.20840 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]: 标题：学习基本具身世界模型：迈向可扩展的机器人学习

标题： Learning Primitive Embodied World Models: Towards Scalable Robotic Learning

Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu

主题：机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[148] arXiv:2508.21052 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： FakeParts：一种新的AI生成的深度伪造技术

标题： FakeParts: a New Family of AI-Generated DeepFakes

Gaetan Brison, Soobash Daiboo, Samy Aimeur, Awais Hussain Sani, Xi Wang, Gianni Franchi, Vicky Kalogeiton

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[149] arXiv:2508.21398 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： GLENDA：妇科腹腔镜子宫内膜异位症数据集

标题： GLENDA: Gynecologic Laparoscopy Endometriosis Dataset

Andreas Leibetseder, Sabrina Kletz, Klaus Schoeffmann, Simon Keckstein, Jörg Keckstein

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[150] arXiv:2508.21399 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：使用深度学习实例分割识别腹腔镜手术器械

标题： Identifying Surgical Instruments in Laparoscopy Using Deep Learning Instance Segmentation

Sabrina Kletz, Klaus Schoeffmann, Jenny Benois-Pineau, Heinrich Husslein

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)

总共 151 条目 : 1-50 51-100 101-150 151-151

显示最多 50 每页条目：较少 | 更多 | 所有

多媒体

2025年08月 的作者和标题

2025年08月的作者和标题