多媒体

2025年08月的作者和标题

总共 151 条目 : 1-50 51-100 101-150 151-151

显示最多 50 每页条目：较少 | 更多 | 所有

[1] arXiv:2508.00579 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： MHier-RAG：通过分层和多粒度推理的多模态RAG用于视觉丰富文档问答

标题： MHier-RAG: Multi-Modal RAG for Visual-Rich Document Question-Answering via Hierarchical and Multi-Granularity Reasoning

Ziyu Gong, Chengcheng Mai, Yihua Huang

评论：评论：更新标题、作者、摘要等

主题：多媒体 (cs.MM) ; 信息检索 (cs.IR)
[2] arXiv:2508.01168 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：基于图的交互增强网络用于鲁棒多模态情感分析

标题： Graph-based Interaction Augmentation Network for Robust Multimodal Sentiment Analysis

Hu Zhangfeng, Shi mengxin

主题：多媒体 (cs.MM)
[3] arXiv:2508.01644 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： DRKF：多模态情感识别中的解耦表示与知识融合

标题： DRKF: Decoupled Representations with Knowledge Fusion for Multimodal Emotion Recognition

Peiyuan Jiang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Yao Liu (School of Information and Software Engineering, University of Electronic Science and Technology of China), Qiao Liu (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Zongshun Zhang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Jiaye Yang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Lu Liu (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Daibing Yao (Yizhou Prison, Sichuan Province)

评论：发表于ACM多媒体2025。10页，4图

期刊参考：第33届ACM国际多媒体会议（MM '25）论文集，2025年10月27日至31日，都柏林，爱尔兰

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[4] arXiv:2508.03410 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： VisAug：通过自动生成的视觉增强功能促进语音丰富的网络视频导航和参与

标题： VisAug: Facilitating Speech-Rich Web Video Navigation and Engagement with Auto-Generated Visual Augmentations

Baoquan Zhao, Xiaofan Ma, Qianshi Pang, Ruomei Wang, Fan Zhou, Shujin Lin

主题：多媒体 (cs.MM) ; 人机交互 (cs.HC)
[5] arXiv:2508.03583 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： OpenLifelogQA：一个开放式的多模态生活日志问答数据集

标题： OpenLifelogQA: An Open-Ended Multi-Modal Lifelog Question-Answering Dataset

Quang-Linh Tran, Binh Nguyen, Gareth J. F. Jones, Cathal Gurrin

主题：多媒体 (cs.MM) ; 信息检索 (cs.IR)
[6] arXiv:2508.04353 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： LUST：一种基于分层LLM评分的多模态框架，用于多媒体内容中的学习主题重要性跟踪

标题： LUST: A Multi-Modal Framework with Hierarchical LLM-based Scoring for Learned Thematic Significance Tracking in Multimedia Content

Anderson de Lima Luiz

评论： 5页和4图

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI)
[7] arXiv:2508.04418 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：思考后再分割：一种针对指代音频-视觉分割的物体感知推理代理

标题： Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation

Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer

评论：项目页面：https://github.com/jasongief/TGS-Agent

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多智能体系统 (cs.MA) ; 多媒体 (cs.MM)
[8] arXiv:2508.05087 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]: 标题： JPS：通过协作视觉扰动和文本引导破解多模态大型语言模型

标题： JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering

Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan Ouyang, Zhexin Zhang, Hongning Wang, Minlie Huang

评论： 10页，3张表格，2张图表，将发表在第33届ACM国际多媒体会议（MM '25）论文集上

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 密码学与安全 (cs.CR)
[9] arXiv:2508.05473 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：代码生成中的嵌入对齐

标题： Embedding Alignment in Code Generation for Audio

Sam Kouteili, Hiren Madhu, George Typaldos, Mark Santolucito

评论：被NeurIPS 2025 AI4Music研讨会接收

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[10] arXiv:2508.07010 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：机器中的叙述记忆：序列电视剧中的多智能体弧提取

标题： Narrative Memory in Machines: Multi-Agent Arc Extraction in Serialized TV

Roberto Balestri, Guglielmo Pescatore

主题：多媒体 (cs.MM) ; 人机交互 (cs.HC) ; 多智能体系统 (cs.MA)
[11] arXiv:2508.07289 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]: 标题：使用二维码和修改的ElGamal密码系统的可逆视频隐写术

标题： Reversible Video Steganography Using Quick Response Codes and Modified ElGamal Cryptosystem

Ramadhan J. Mstafa

评论： 20页，10图，3表

期刊参考：计算机、材料与连续体 2022, 72(2), 3349-3368

主题：多媒体 (cs.MM) ; 密码学与安全 (cs.CR)
[12] arXiv:2508.07554 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： FineBadminton：一种细粒度羽毛球视频理解的多级数据集

标题： FineBadminton: A Multi-Level Dataset for Fine-Grained Badminton Video Understanding

Xusheng He, Wei Liu, Shanshan Ma, Qian Liu, Chenghao Ma, Jianlong Wu

主题：多媒体 (cs.MM)
[13] arXiv:2508.07590 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： MSPT：一种具有多阶段渐进训练的轻量级人脸图像质量评估方法

标题： MSPT: A Lightweight Face Image Quality Assessment Method with Multi-stage Progressive Training

Xiongwei Xiao, Baoying Chen, Jishen Zeng, Jianquan Yang

主题：多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV)
[14] arXiv:2508.07608 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： AD-AVSR：用于鲁棒音视频语音识别的非对称双流增强

标题： AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition

Junxiao Xue, Xiaozhen Liu, Xuecheng Wu, Xinyi Yin, Danlei Huang, Fei Yu

评论：被ACM MM 2025 SVC研讨会接受

主题：多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD)
[15] arXiv:2508.07666 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：通过对比跨模态检索增强和分层提示进行多模态情感分析

标题： Towards Multimodal Sentiment Analysis via Contrastive Cross-modal Retrieval Augmentation and Hierachical Prompts

Xianbing Zhao, Shengzun Yang, Buzhou Tang, Ronghuan Jiang

评论：正在审核中

主题：多媒体 (cs.MM)
[16] arXiv:2508.07992 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]: 标题：挖掘社会结构：揭示社区以在短视频中检测虚假新闻

标题： Mining the Social Fabric: Unveiling Communities for Fake News Detection in Short Videos

Haisong Gong, Bolan Su, Xinrong Zhang, Jing Li, Qiang Liu, Shu Wu, Liang Wang

评论：在提交中

主题：多媒体 (cs.MM)
[17] arXiv:2508.08237 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： VGGSounder：基础模型的音频-视觉评估

标题： VGGSounder: Audio-Visual Evaluations for Foundation Models

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

评论： IEEE/CVF 国际计算机视觉会议（ICCV）论文集 2025

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[18] arXiv:2508.08592 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]: 标题：大规模事实核查：在线媒体真实性与上下文验证的多模态人工智能

标题： Fact-Checking at Scale: Multimodal AI for Authenticity and Context Verification in Online Media

Van-Hoang Phan, Tung-Duong Le-Duc, Long-Khanh Pham, Anh-Thu Le, Quynh-Huong Dinh-Nguyen, Dang-Quan Vo, Hoang-Quoc Nguyen-Son, Anh-Duy Tran, Dang Vu, Minh-Son Dao

评论：结果中的严重错误，不会被纠正

主题：多媒体 (cs.MM)
[19] arXiv:2508.08928 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： DASC：一种用于光场显示三维可视化的景深感知场景复杂度度量

标题： DASC: Depth-of-Field Aware Scene Complexity Metric for 3D Visualization on Light Field Display

Kamran Akbar, Robert Bregovic, Federica Battisti

评论： 12页，提交至《IEEE多媒体汇刊》

主题：多媒体 (cs.MM) ; 图形学 (cs.GR)
[20] arXiv:2508.09232 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： PETLP：一种面向人工智能研究的社交媒体数据隐私设计流程

标题： PETLP: A Privacy-by-Design Pipeline for Social Media Data in AI Research

Nick Oh, Giorgos D. Vrakas, Siân J. M. Brooke, Sasha Morinière, Toju Duke

评论：将论文扩展版本提交至第八届AAAI/ACM人工智能、伦理与社会会议（AIES 2025）

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 数据库 (cs.DB)
[21] arXiv:2508.09535 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]: 标题： AI Blob! 基于大语言模型的意大利电视档案再语境化

标题： AI Blob! LLM-Driven Recontextualization of Italian Television Archives

Roberto Balestri

评论：预印本

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 数字图书馆 (cs.DL)
[22] arXiv:2508.09777 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：基于就地双刺激方法的高质量图像主观评估

标题： In-place Double Stimulus Methodology for Subjective Assessment of High Quality Images

Shima Mohammadi, Mohsen Jenadeleh, Michela Testolina, Jon Sneyers, Touradj Ebrahimi, Dietmar Saupe, João Ascenso

评论： 6页，5图，被欧洲视觉信息处理研讨会接收

主题：多媒体 (cs.MM)
[23] arXiv:2508.10580 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：基于集成同步性方法和人脸-语音关联范式的自传式记录中鲁棒的主动说话人检测

标题： Ensembling Synchronisation-based and Face-Voice Association Paradigms for Robust Active Speaker Detection in Egocentric Recordings

Jason Clarke, Yoshihiko Gotoh, Stefan Goetze

评论：被接受至SPECOM 2025，13页，4图。将发表于第27届国际语音与计算机会议（SPECOM）2025论文集，2025年10月13-14日，匈牙利塞格德

主题：多媒体 (cs.MM) ; 声音 (cs.SD)
[24] arXiv:2508.10974 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：视频大语言模型中未能检测到有害内容的故障

标题： Failures to Surface Harmful Contents in Video Large Language Models

Yuxin Cao, Wei Song, Derui Wang, Jingling Xue, Jin Song Dong

评论： 11页，8图

主题：多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV)
[25] arXiv:2508.12020 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： Ges-QA：用于音频到3D手势生成的多维质量评估数据集

标题： Ges-QA: A Multidimensional Quality Assessment Dataset for Audio-to-3D Gesture Generation

Zhilin Gao, Yunhao Li, Sijing Wu, Yuqin Cao, Huiyu Duan, Guangtao Zhai

主题：多媒体 (cs.MM)
[26] arXiv:2508.12368 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： CEM-Net：情感对话面部生成的跨情绪记忆网络

标题： CEM-Net: Cross-Emotion Memory Network for Emotional Talking Face Generation

Kangyi Wu, Pengna Li, Jingwen Fu, Yang Wu, Yuhan Liu, Sanping Zhou, Jinjun Wang

主题：多媒体 (cs.MM) ; 声音 (cs.SD)
[27] arXiv:2508.12992 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： MAGNeT：多模态自适应高斯网络用于复杂场景中移动目标选择的意图推断

标题： MAGNeT: Multimodal Adaptive Gaussian Networks for Intent Inference in Moving Target Selection across Complex Scenarios

Xiangxian Li, Yawen Zheng, Baiqiao Zhang, Yijia Ma, Xianhui Cao, Juan Liu, Yulong Bian, Jin Huang, Chenglei Yang

评论：被ACM MM 2025接受

主题：多媒体 (cs.MM)
[28] arXiv:2508.13402 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：基于LEO卫星星座的鲁棒实时流媒体：测量、分析与切换感知适应

标题： Robust Live Streaming over LEO Satellite Constellations: Measurement, Analysis, and Handover-Aware Adaptation

Hao Fang, Haoyuan Zhao, Jianxin Shi, Miao Zhang, Guanzhen Wu, Yi Ching Chou, Feng Wang, Jiangchuan Liu

评论：被ACM多媒体2024接受

主题：多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[29] arXiv:2508.13756 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： INDS：用于实时点云视频的增量命名数据流

标题： INDS: Incremental Named Data Streaming for Real-Time Point Cloud Video

Ruonan Chai, Yixiang Zhu, Xinjiao Li, Jiawei Li, Zili Meng, Dirk Kutscher

评论： 9页，9图，2表。将发表于第33届ACM多媒体国际会议（MM '25）论文集，2025年10月27日至31日，都柏林，爱尔兰

主题：多媒体 (cs.MM)
[30] arXiv:2508.14581 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：基于记忆锚定的多模态推理用于可解释的视频取证

标题： Memory-Anchored Multimodal Reasoning for Explainable Video Forensics

Chen Chen, Runze Li, Zejun Zhang, Pukun Zhao, Fanqing Zhou, Longxiang Wang, Haojian Huang

主题：多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[31] arXiv:2508.14941 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：通过分层和语义归一化知识图谱的视觉叙事鲁棒符号推理

标题： Robust Symbolic Reasoning for Visual Narratives via Hierarchical and Semantically Normalized Knowledge Graphs

Yi-Chun Chen

评论： 12页，4图，2表。在我们早期的分层叙事图框架基础上，增加了一个语义归一化模块

主题：多媒体 (cs.MM) ; 计算与语言 (cs.CL)
[32] arXiv:2508.14956 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：全息工匠：面向边缘智能的虚拟博物馆个性化多用户全息体验

标题： Holo-Artisan: A Personalized Multi-User Holographic Experience for Virtual Museums on the Edge Intelligence

Nan-Hong Kuo, Hojjat Baghban

主题：多媒体 (cs.MM) ; 网络与互联网架构 (cs.NI) ; 图像与视频处理 (eess.IV) ; 系统与控制 (eess.SY)
[33] arXiv:2508.14996 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： adder-viz：转码事件视频的实时可视化软件

标题： adder-viz: Real-Time Visualization Software for Transcoding Event Video

Andrew C. Freeman, Luke Reinkensmeyer

评论：被接受到ACM多媒体2025的开源轨道

主题：多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV) ; 人机交互 (cs.HC) ; 图像与视频处理 (eess.IV)
[34] arXiv:2508.15398 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：一种低延迟的三维实时远程可视化系统，用于旅游景点，整合动态和预先捕获的静态点云

标题： A Low-Latency 3D Live Remote Visualization System for Tourist Sites Integrating Dynamic and Pre-captured Static Point Clouds

Takahiro Matsumoto, Masafumi Suzuki, Mariko Yamaguchi, Masakatsu Aoki, Shunsuke Konagai, Kazuhiko Murasaki

评论： 3页，4图，提交至IEEE ISMAR 2025海报

主题：多媒体 (cs.MM)
[35] arXiv:2508.16448 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：超越可解释性：通过大型语言模型探索自适应视频流的可理解性

标题： Beyond Interpretability: Exploring the Comprehensibility of Adaptive Video Streaming through Large Language Models

Lianchen Jia, Chaoyang Li, Ziqi Yuan, Jiahui Chen, Tianchi Huang, Jiangchuan Liu, Lifeng Sun

评论： ACM多媒体2025

主题：多媒体 (cs.MM) ; 机器学习 (cs.LG) ; 图像与视频处理 (eess.IV)
[36] arXiv:2508.16454 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：面向用户级QoE：自适应视频流个性化优化的大规模实践

标题： Towards User-level QoE: Large-scale Practice in Personalized Optimization of Adaptive Video Streaming

Lianchen Jia, Chao Zhou, Chaoyang Li, Jiangchuan Liu, Lifeng Sun

评论： ACM SIGCOMM 2025

主题：多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[37] arXiv:2508.17163 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：生成式人工智能在多媒体通信中的应用：最新进展、信息论框架与未来机遇

标题： Generative AI for Multimedia Communication: Recent Advances, An Information-Theoretic Framework, and Future Opportunities

Yili Jin, Xue Liu, Jiangchuan Liu

评论： ACM多媒体2025

主题：多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[38] arXiv:2508.17166 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：生成流网络用于个性化多媒体系统：短视频推送的案例研究

标题： Generative Flow Networks for Personalized Multimedia Systems: A Case Study on Short Video Feeds

Yili Jin, Ling Pan, Rui-Xiao Zhang, Jiangchuan Liu, Xue Liu

评论： ACM多媒体2025

主题：多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[39] arXiv:2508.19639 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： FakeSV-VLM：通过渐进式专家混合适配器检测虚假短视频新闻的VLM

标题： FakeSV-VLM: Taming VLM for Detecting Fake Short-Video News via Progressive Mixture-Of-Experts Adapter

Junxi Wang, Yaxiong Wang, Lechao Cheng, Zhun Zhong

评论： EMNLP2025 论文集

主题：多媒体 (cs.MM)
[40] arXiv:2508.20057 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： ProMSC-MIS：基于提示的多模态语义通信用于多光谱图像分割

标题： ProMSC-MIS: Prompt-based Multimodal Semantic Communication for Multi-Spectral Image Segmentation

Haoshuo Zhang, Yufei Bo, Meixia Tao

评论： arXiv管理员注释：与arXiv:2508.17920文本重叠

主题：多媒体 (cs.MM)
[41] arXiv:2508.20546 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： MM-HSD：视频中的多模态仇恨言论检测

标题： MM-HSD: Multi-Modal Hate Speech Detection in Videos

Berta Céspedes-Sarrias, Carlos Collado-Capell, Pablo Rodenas-Ruiz, Olena Hrynenko, Andrea Cavallaro

评论：被ACM多媒体2025接收

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI)
[42] arXiv:2508.20560 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： diveXplore 在 Video Browser Showdown 2024 中

标题： diveXplore at the Video Browser Showdown 2024

Klaus Schoeffmann, Sahar Nasirihaghighi

主题：多媒体 (cs.MM)
[43] arXiv:2508.20569 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：少即是多 - diveXplore 5.0 在 VBS 2021

标题： Less is More - diveXplore 5.0 at VBS 2021

Andreas Leibetseder, Klaus Schoeffmann

主题：多媒体 (cs.MM)
[44] arXiv:2508.20687 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： diveXplore 6.0：ITEC 在 VBS 2022 上的交互式视频探索系统

标题： diveXplore 6.0: ITEC's Interactive Video Exploration System at VBS 2022

Andreas Leibetseder, Klaus Schoeffmann

主题：多媒体 (cs.MM)
[45] arXiv:2508.20741 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： AdaDPCC：动态点云压缩的自适应速率控制和速率失真复杂度优化

标题： AdaDPCC: Adaptive Rate Control and Rate-Distortion-Complexity Optimization for Dynamic Point Cloud Compression

Chenhao Zhang, Wei Gao

主题：多媒体 (cs.MM)
[46] arXiv:2508.21397 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： lifeXplore 在 Lifelog 搜索挑战赛 2020 中

标题： lifeXplore at the Lifelog Search Challenge 2020

Andreas Leibetseder, Klaus Schoeffmann

主题：多媒体 (cs.MM)
[47] arXiv:2508.00260 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：基于指令的视觉投影器用于生成式视觉-语言模型的持续学习

标题： Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models

Hyundong Jin, Hyung Jin Chang, Eunwoo Kim

评论：被ICCV 2025接收

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[48] arXiv:2508.00632 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]: 标题：通过音视频记录的多智能体游戏生成与评估

标题： Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings

Alexia Jolicoeur-Martineau

主题：人工智能 (cs.AI) ; 多智能体系统 (cs.MA) ; 多媒体 (cs.MM)
[49] arXiv:2508.00733 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： AudioGen-Omni：一种用于视频同步音频、语音和歌曲生成的统一多模态扩散Transformer

标题： AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

Le Wang, Jun Wang, Chunyu Qiang, Feng Deng, Chen Zhang, Di Zhang, Kun Gai

评论： 12页，2图

主题：声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[50] arXiv:2508.00748 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：你真的是你吗？探索逼真说话头像视频中的生物特征验证场景

标题： Is It Really You? Exploring Biometric Verification Scenarios in Photorealistic Talking-Head Avatar Videos

Laura Pedrouzo-Rodriguez, Pedro Delgado-DeRobles, Luis F. Gomez, Ruben Tolosana, Ruben Vera-Rodriguez, Aythami Morales, Julian Fierrez

评论：被IEEE国际生物特征学会议（IJCB 2025）接收

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 密码学与安全 (cs.CR) ; 多媒体 (cs.MM)

总共 151 条目 : 1-50 51-100 101-150 151-151

显示最多 50 每页条目：较少 | 更多 | 所有

多媒体

2025年08月 的作者和标题

2025年08月的作者和标题