Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.MM

帮助 | 高级搜索

多媒体

2025年08月 的作者和标题

总共 151 条目 : 1-50 51-100 101-150 151-151
显示最多 50 每页条目: 较少 | 更多 | 所有
[1] arXiv:2508.00579 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: MHier-RAG:通过分层和多粒度推理的多模态RAG用于视觉丰富文档问答
标题: MHier-RAG: Multi-Modal RAG for Visual-Rich Document Question-Answering via Hierarchical and Multi-Granularity Reasoning
Ziyu Gong, Chengcheng Mai, Yihua Huang
评论: 评论:更新标题、作者、摘要等
主题: 多媒体 (cs.MM) ; 信息检索 (cs.IR)
[2] arXiv:2508.01168 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 基于图的交互增强网络用于鲁棒多模态情感分析
标题: Graph-based Interaction Augmentation Network for Robust Multimodal Sentiment Analysis
Hu Zhangfeng, Shi mengxin
主题: 多媒体 (cs.MM)
[3] arXiv:2508.01644 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: DRKF:多模态情感识别中的解耦表示与知识融合
标题: DRKF: Decoupled Representations with Knowledge Fusion for Multimodal Emotion Recognition
Peiyuan Jiang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Yao Liu (School of Information and Software Engineering, University of Electronic Science and Technology of China), Qiao Liu (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Zongshun Zhang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Jiaye Yang (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Lu Liu (School of Computer Science and Engineering, University of Electronic Science and Technology of China), Daibing Yao (Yizhou Prison, Sichuan Province)
评论: 发表于ACM多媒体2025。10页,4图
期刊参考: 第33届ACM国际多媒体会议(MM '25)论文集,2025年10月27日至31日,都柏林,爱尔兰
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[4] arXiv:2508.03410 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: VisAug:通过自动生成的视觉增强功能促进语音丰富的网络视频导航和参与
标题: VisAug: Facilitating Speech-Rich Web Video Navigation and Engagement with Auto-Generated Visual Augmentations
Baoquan Zhao, Xiaofan Ma, Qianshi Pang, Ruomei Wang, Fan Zhou, Shujin Lin
主题: 多媒体 (cs.MM) ; 人机交互 (cs.HC)
[5] arXiv:2508.03583 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: OpenLifelogQA:一个开放式的多模态生活日志问答数据集
标题: OpenLifelogQA: An Open-Ended Multi-Modal Lifelog Question-Answering Dataset
Quang-Linh Tran, Binh Nguyen, Gareth J. F. Jones, Cathal Gurrin
主题: 多媒体 (cs.MM) ; 信息检索 (cs.IR)
[6] arXiv:2508.04353 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: LUST:一种基于分层LLM评分的多模态框架,用于多媒体内容中的学习主题重要性跟踪
标题: LUST: A Multi-Modal Framework with Hierarchical LLM-based Scoring for Learned Thematic Significance Tracking in Multimedia Content
Anderson de Lima Luiz
评论: 5页和4图
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI)
[7] arXiv:2508.04418 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 思考后再分割:一种针对指代音频-视觉分割的物体感知推理代理
标题: Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation
Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer
评论: 项目页面:https://github.com/jasongief/TGS-Agent
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多智能体系统 (cs.MA) ; 多媒体 (cs.MM)
[8] arXiv:2508.05087 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]
标题: JPS:通过协作视觉扰动和文本引导破解多模态大型语言模型
标题: JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering
Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan Ouyang, Zhexin Zhang, Hongning Wang, Minlie Huang
评论: 10页,3张表格,2张图表,将发表在第33届ACM国际多媒体会议(MM '25)论文集上
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 密码学与安全 (cs.CR)
[9] arXiv:2508.05473 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 代码生成中的嵌入对齐
标题: Embedding Alignment in Code Generation for Audio
Sam Kouteili, Hiren Madhu, George Typaldos, Mark Santolucito
评论: 被NeurIPS 2025 AI4Music研讨会接收
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[10] arXiv:2508.07010 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 机器中的叙述记忆:序列电视剧中的多智能体弧提取
标题: Narrative Memory in Machines: Multi-Agent Arc Extraction in Serialized TV
Roberto Balestri, Guglielmo Pescatore
主题: 多媒体 (cs.MM) ; 人机交互 (cs.HC) ; 多智能体系统 (cs.MA)
[11] arXiv:2508.07289 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]
标题: 使用二维码和修改的ElGamal密码系统的可逆视频隐写术
标题: Reversible Video Steganography Using Quick Response Codes and Modified ElGamal Cryptosystem
Ramadhan J. Mstafa
评论: 20页,10图,3表
期刊参考: 计算机、材料与连续体 2022, 72(2), 3349-3368
主题: 多媒体 (cs.MM) ; 密码学与安全 (cs.CR)
[12] arXiv:2508.07554 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: FineBadminton:一种细粒度羽毛球视频理解的多级数据集
标题: FineBadminton: A Multi-Level Dataset for Fine-Grained Badminton Video Understanding
Xusheng He, Wei Liu, Shanshan Ma, Qian Liu, Chenghao Ma, Jianlong Wu
主题: 多媒体 (cs.MM)
[13] arXiv:2508.07590 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: MSPT:一种具有多阶段渐进训练的轻量级人脸图像质量评估方法
标题: MSPT: A Lightweight Face Image Quality Assessment Method with Multi-stage Progressive Training
Xiongwei Xiao, Baoying Chen, Jishen Zeng, Jianquan Yang
主题: 多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV)
[14] arXiv:2508.07608 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: AD-AVSR:用于鲁棒音视频语音识别的非对称双流增强
标题: AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition
Junxiao Xue, Xiaozhen Liu, Xuecheng Wu, Xinyi Yin, Danlei Huang, Fei Yu
评论: 被ACM MM 2025 SVC研讨会接受
主题: 多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD)
[15] arXiv:2508.07666 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 通过对比跨模态检索增强和分层提示进行多模态情感分析
标题: Towards Multimodal Sentiment Analysis via Contrastive Cross-modal Retrieval Augmentation and Hierachical Prompts
Xianbing Zhao, Shengzun Yang, Buzhou Tang, Ronghuan Jiang
评论: 正在审核中
主题: 多媒体 (cs.MM)
[16] arXiv:2508.07992 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]
标题: 挖掘社会结构:揭示社区以在短视频中检测虚假新闻
标题: Mining the Social Fabric: Unveiling Communities for Fake News Detection in Short Videos
Haisong Gong, Bolan Su, Xinrong Zhang, Jing Li, Qiang Liu, Shu Wu, Liang Wang
评论: 在提交中
主题: 多媒体 (cs.MM)
[17] arXiv:2508.08237 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: VGGSounder:基础模型的音频-视觉评估
标题: VGGSounder: Audio-Visual Evaluations for Foundation Models
Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke
评论: IEEE/CVF 国际计算机视觉会议(ICCV)论文集 2025
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[18] arXiv:2508.08592 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]
标题: 大规模事实核查:在线媒体真实性与上下文验证的多模态人工智能
标题: Fact-Checking at Scale: Multimodal AI for Authenticity and Context Verification in Online Media
Van-Hoang Phan, Tung-Duong Le-Duc, Long-Khanh Pham, Anh-Thu Le, Quynh-Huong Dinh-Nguyen, Dang-Quan Vo, Hoang-Quoc Nguyen-Son, Anh-Duy Tran, Dang Vu, Minh-Son Dao
评论: 结果中的严重错误,不会被纠正
主题: 多媒体 (cs.MM)
[19] arXiv:2508.08928 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: DASC:一种用于光场显示三维可视化的景深感知场景复杂度度量
标题: DASC: Depth-of-Field Aware Scene Complexity Metric for 3D Visualization on Light Field Display
Kamran Akbar, Robert Bregovic, Federica Battisti
评论: 12页,提交至《IEEE多媒体汇刊》
主题: 多媒体 (cs.MM) ; 图形学 (cs.GR)
[20] arXiv:2508.09232 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: PETLP:一种面向人工智能研究的社交媒体数据隐私设计流程
标题: PETLP: A Privacy-by-Design Pipeline for Social Media Data in AI Research
Nick Oh, Giorgos D. Vrakas, Siân J. M. Brooke, Sasha Morinière, Toju Duke
评论: 将论文扩展版本提交至第八届AAAI/ACM人工智能、伦理与社会会议(AIES 2025)
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 数据库 (cs.DB)
[21] arXiv:2508.09535 (交叉列表自 cs.MM) [中文pdf, pdf, 其他]
标题: AI Blob! 基于大语言模型的意大利电视档案再语境化
标题: AI Blob! LLM-Driven Recontextualization of Italian Television Archives
Roberto Balestri
评论: 预印本
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 数字图书馆 (cs.DL)
[22] arXiv:2508.09777 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 基于就地双刺激方法的高质量图像主观评估
标题: In-place Double Stimulus Methodology for Subjective Assessment of High Quality Images
Shima Mohammadi, Mohsen Jenadeleh, Michela Testolina, Jon Sneyers, Touradj Ebrahimi, Dietmar Saupe, João Ascenso
评论: 6页,5图,被欧洲视觉信息处理研讨会接收
主题: 多媒体 (cs.MM)
[23] arXiv:2508.10580 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 基于集成同步性方法和人脸-语音关联范式的自传式记录中鲁棒的主动说话人检测
标题: Ensembling Synchronisation-based and Face-Voice Association Paradigms for Robust Active Speaker Detection in Egocentric Recordings
Jason Clarke, Yoshihiko Gotoh, Stefan Goetze
评论: 被接受至SPECOM 2025,13页,4图。将发表于第27届国际语音与计算机会议(SPECOM)2025论文集,2025年10月13-14日,匈牙利塞格德
主题: 多媒体 (cs.MM) ; 声音 (cs.SD)
[24] arXiv:2508.10974 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 视频大语言模型中未能检测到有害内容的故障
标题: Failures to Surface Harmful Contents in Video Large Language Models
Yuxin Cao, Wei Song, Derui Wang, Jingling Xue, Jin Song Dong
评论: 11页,8图
主题: 多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV)
[25] arXiv:2508.12020 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: Ges-QA:用于音频到3D手势生成的多维质量评估数据集
标题: Ges-QA: A Multidimensional Quality Assessment Dataset for Audio-to-3D Gesture Generation
Zhilin Gao, Yunhao Li, Sijing Wu, Yuqin Cao, Huiyu Duan, Guangtao Zhai
主题: 多媒体 (cs.MM)
[26] arXiv:2508.12368 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: CEM-Net:情感对话面部生成的跨情绪记忆网络
标题: CEM-Net: Cross-Emotion Memory Network for Emotional Talking Face Generation
Kangyi Wu, Pengna Li, Jingwen Fu, Yang Wu, Yuhan Liu, Sanping Zhou, Jinjun Wang
主题: 多媒体 (cs.MM) ; 声音 (cs.SD)
[27] arXiv:2508.12992 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: MAGNeT:多模态自适应高斯网络用于复杂场景中移动目标选择的意图推断
标题: MAGNeT: Multimodal Adaptive Gaussian Networks for Intent Inference in Moving Target Selection across Complex Scenarios
Xiangxian Li, Yawen Zheng, Baiqiao Zhang, Yijia Ma, Xianhui Cao, Juan Liu, Yulong Bian, Jin Huang, Chenglei Yang
评论: 被ACM MM 2025接受
主题: 多媒体 (cs.MM)
[28] arXiv:2508.13402 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 基于LEO卫星星座的鲁棒实时流媒体:测量、分析与切换感知适应
标题: Robust Live Streaming over LEO Satellite Constellations: Measurement, Analysis, and Handover-Aware Adaptation
Hao Fang, Haoyuan Zhao, Jianxin Shi, Miao Zhang, Guanzhen Wu, Yi Ching Chou, Feng Wang, Jiangchuan Liu
评论: 被ACM多媒体2024接受
主题: 多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[29] arXiv:2508.13756 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: INDS:用于实时点云视频的增量命名数据流
标题: INDS: Incremental Named Data Streaming for Real-Time Point Cloud Video
Ruonan Chai, Yixiang Zhu, Xinjiao Li, Jiawei Li, Zili Meng, Dirk Kutscher
评论: 9页,9图,2表。将发表于第33届ACM多媒体国际会议(MM '25)论文集,2025年10月27日至31日,都柏林,爱尔兰
主题: 多媒体 (cs.MM)
[30] arXiv:2508.14581 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 基于记忆锚定的多模态推理用于可解释的视频取证
标题: Memory-Anchored Multimodal Reasoning for Explainable Video Forensics
Chen Chen, Runze Li, Zejun Zhang, Pukun Zhao, Fanqing Zhou, Longxiang Wang, Haojian Huang
主题: 多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[31] arXiv:2508.14941 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 通过分层和语义归一化知识图谱的视觉叙事鲁棒符号推理
标题: Robust Symbolic Reasoning for Visual Narratives via Hierarchical and Semantically Normalized Knowledge Graphs
Yi-Chun Chen
评论: 12页,4图,2表。在我们早期的分层叙事图框架基础上,增加了一个语义归一化模块
主题: 多媒体 (cs.MM) ; 计算与语言 (cs.CL)
[32] arXiv:2508.14956 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 全息工匠:面向边缘智能的虚拟博物馆个性化多用户全息体验
标题: Holo-Artisan: A Personalized Multi-User Holographic Experience for Virtual Museums on the Edge Intelligence
Nan-Hong Kuo, Hojjat Baghban
主题: 多媒体 (cs.MM) ; 网络与互联网架构 (cs.NI) ; 图像与视频处理 (eess.IV) ; 系统与控制 (eess.SY)
[33] arXiv:2508.14996 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: adder-viz:转码事件视频的实时可视化软件
标题: adder-viz: Real-Time Visualization Software for Transcoding Event Video
Andrew C. Freeman, Luke Reinkensmeyer
评论: 被接受到ACM多媒体2025的开源轨道
主题: 多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV) ; 人机交互 (cs.HC) ; 图像与视频处理 (eess.IV)
[34] arXiv:2508.15398 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 一种低延迟的三维实时远程可视化系统,用于旅游景点,整合动态和预先捕获的静态点云
标题: A Low-Latency 3D Live Remote Visualization System for Tourist Sites Integrating Dynamic and Pre-captured Static Point Clouds
Takahiro Matsumoto, Masafumi Suzuki, Mariko Yamaguchi, Masakatsu Aoki, Shunsuke Konagai, Kazuhiko Murasaki
评论: 3页,4图,提交至IEEE ISMAR 2025海报
主题: 多媒体 (cs.MM)
[35] arXiv:2508.16448 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 超越可解释性:通过大型语言模型探索自适应视频流的可理解性
标题: Beyond Interpretability: Exploring the Comprehensibility of Adaptive Video Streaming through Large Language Models
Lianchen Jia, Chaoyang Li, Ziqi Yuan, Jiahui Chen, Tianchi Huang, Jiangchuan Liu, Lifeng Sun
评论: ACM多媒体2025
主题: 多媒体 (cs.MM) ; 机器学习 (cs.LG) ; 图像与视频处理 (eess.IV)
[36] arXiv:2508.16454 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 面向用户级QoE:自适应视频流个性化优化的大规模实践
标题: Towards User-level QoE: Large-scale Practice in Personalized Optimization of Adaptive Video Streaming
Lianchen Jia, Chao Zhou, Chaoyang Li, Jiangchuan Liu, Lifeng Sun
评论: ACM SIGCOMM 2025
主题: 多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[37] arXiv:2508.17163 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 生成式人工智能在多媒体通信中的应用:最新进展、信息论框架与未来机遇
标题: Generative AI for Multimedia Communication: Recent Advances, An Information-Theoretic Framework, and Future Opportunities
Yili Jin, Xue Liu, Jiangchuan Liu
评论: ACM多媒体2025
主题: 多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[38] arXiv:2508.17166 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 生成流网络用于个性化多媒体系统:短视频推送的案例研究
标题: Generative Flow Networks for Personalized Multimedia Systems: A Case Study on Short Video Feeds
Yili Jin, Ling Pan, Rui-Xiao Zhang, Jiangchuan Liu, Xue Liu
评论: ACM多媒体2025
主题: 多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[39] arXiv:2508.19639 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: FakeSV-VLM:通过渐进式专家混合适配器检测虚假短视频新闻的VLM
标题: FakeSV-VLM: Taming VLM for Detecting Fake Short-Video News via Progressive Mixture-Of-Experts Adapter
Junxi Wang, Yaxiong Wang, Lechao Cheng, Zhun Zhong
评论: EMNLP2025 论文集
主题: 多媒体 (cs.MM)
[40] arXiv:2508.20057 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: ProMSC-MIS:基于提示的多模态语义通信用于多光谱图像分割
标题: ProMSC-MIS: Prompt-based Multimodal Semantic Communication for Multi-Spectral Image Segmentation
Haoshuo Zhang, Yufei Bo, Meixia Tao
评论: arXiv管理员注释:与arXiv:2508.17920文本重叠
主题: 多媒体 (cs.MM)
[41] arXiv:2508.20546 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: MM-HSD:视频中的多模态仇恨言论检测
标题: MM-HSD: Multi-Modal Hate Speech Detection in Videos
Berta Céspedes-Sarrias, Carlos Collado-Capell, Pablo Rodenas-Ruiz, Olena Hrynenko, Andrea Cavallaro
评论: 被ACM多媒体2025接收
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI)
[42] arXiv:2508.20560 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: diveXplore 在 Video Browser Showdown 2024 中
标题: diveXplore at the Video Browser Showdown 2024
Klaus Schoeffmann, Sahar Nasirihaghighi
主题: 多媒体 (cs.MM)
[43] arXiv:2508.20569 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 少即是多 - diveXplore 5.0 在 VBS 2021
标题: Less is More - diveXplore 5.0 at VBS 2021
Andreas Leibetseder, Klaus Schoeffmann
主题: 多媒体 (cs.MM)
[44] arXiv:2508.20687 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: diveXplore 6.0:ITEC 在 VBS 2022 上的交互式视频探索系统
标题: diveXplore 6.0: ITEC's Interactive Video Exploration System at VBS 2022
Andreas Leibetseder, Klaus Schoeffmann
主题: 多媒体 (cs.MM)
[45] arXiv:2508.20741 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: AdaDPCC:动态点云压缩的自适应速率控制和速率失真复杂度优化
标题: AdaDPCC: Adaptive Rate Control and Rate-Distortion-Complexity Optimization for Dynamic Point Cloud Compression
Chenhao Zhang, Wei Gao
主题: 多媒体 (cs.MM)
[46] arXiv:2508.21397 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: lifeXplore 在 Lifelog 搜索挑战赛 2020 中
标题: lifeXplore at the Lifelog Search Challenge 2020
Andreas Leibetseder, Klaus Schoeffmann
主题: 多媒体 (cs.MM)
[47] arXiv:2508.00260 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 基于指令的视觉投影器用于生成式视觉-语言模型的持续学习
标题: Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models
Hyundong Jin, Hyung Jin Chang, Eunwoo Kim
评论: 被ICCV 2025接收
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[48] arXiv:2508.00632 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]
标题: 通过音视频记录的多智能体游戏生成与评估
标题: Multi-Agent Game Generation and Evaluation via Audio-Visual Recordings
Alexia Jolicoeur-Martineau
主题: 人工智能 (cs.AI) ; 多智能体系统 (cs.MA) ; 多媒体 (cs.MM)
[49] arXiv:2508.00733 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: AudioGen-Omni:一种用于视频同步音频、语音和歌曲生成的统一多模态扩散Transformer
标题: AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation
Le Wang, Jun Wang, Chunyu Qiang, Feng Deng, Chen Zhang, Di Zhang, Kun Gai
评论: 12页,2图
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[50] arXiv:2508.00748 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 你真的是你吗? 探索逼真说话头像视频中的生物特征验证场景
标题: Is It Really You? Exploring Biometric Verification Scenarios in Photorealistic Talking-Head Avatar Videos
Laura Pedrouzo-Rodriguez, Pedro Delgado-DeRobles, Luis F. Gomez, Ruben Tolosana, Ruben Vera-Rodriguez, Aythami Morales, Julian Fierrez
评论: 被IEEE国际生物特征学会议(IJCB 2025)接收
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 密码学与安全 (cs.CR) ; 多媒体 (cs.MM)
总共 151 条目 : 1-50 51-100 101-150 151-151
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号