Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.MM

帮助 | 高级搜索

多媒体

2025年08月 的作者和标题

总共 151 条目 : 1-50 51-100 101-150 151-151
显示最多 50 每页条目: 较少 | 更多 | 所有
[101] arXiv:2508.11872 (交叉列表自 cs.CY) [中文pdf, pdf, 其他]
标题: 通过虚拟化身的歌唱课程:通过人工智能生成的音乐和数字具身化增强学生参与度
标题: Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment
Xinxing Wu
评论: 17页,4图,3表
主题: 计算机与社会 (cs.CY) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[102] arXiv:2508.11873 (交叉列表自 cs.CY) [中文pdf, pdf, html, 其他]
标题: SimInterview:通过基于大型语言模型的多语言模拟面试培训系统变革商业教育
标题: SimInterview: Transforming Business Education through Large Language Model-Based Simulated Multilingual Interview Training System
Truong Thanh Hung Nguyen, Tran Diem Quynh Nguyen, Hoang Loc Cao, Thi Cam Thanh Tran, Thi Cam Mai Truong, Hung Cao
评论: 作为会议论文发表于ICEFM 2025
主题: 计算机与社会 (cs.CY) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[103] arXiv:2508.12334 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: HDA-SELD:基于多级数据增强的分层跨模态蒸馏方法用于低资源音频-视觉声音事件定位与检测
标题: HDA-SELD: Hierarchical Cross-Modal Distillation with Multi-Level Data Augmentation for Low-Resource Audio-Visual Sound Event Localization and Detection
Qing Wang, Ya Jiang, Hang Chen, Sabato Marco Siniscalchi, Jun Du, Jianqing Gao
评论: 13页,8图
主题: 声音 (cs.SD) ; 多媒体 (cs.MM)
[104] arXiv:2508.12842 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 多源多模态渐进域自适应用于音视频欺骗检测
标题: Multi-source Multimodal Progressive Domain Adaption for Audio-Visual Deception Detection
Ronghao Lin, Sijie Mai, Ying Zeng, Qiaolin He, Aolin Xiong, Haifeng Hu
评论: 已被ACM MM 2025 SVC研讨会接受
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[105] arXiv:2508.12854 (交叉列表自 cs.AI) [中文pdf, pdf, 其他]
标题: E3RG:使用多模态大语言模型构建显式情绪驱动的共情响应生成系统
标题: E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model
Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan
评论: 被ACM MM 2025大奖赛接受
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[106] arXiv:2508.13142 (交叉列表自 cs.CV) [中文pdf, pdf, 其他]
标题: 多模态大语言模型在空间智能上的整体评估
标题: Holistic Evaluation of Multimodal LLMs on Spatial Intelligence
Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
主题: 计算机视觉与模式识别 (cs.CV) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 机器人技术 (cs.RO)
[107] arXiv:2508.13428 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 减轻多选题回答中的简单选项偏差
标题: Mitigating Easy Option Bias in Multiple-Choice Question Answering
Hao Zhang, Chen Li, Basura Fernando
评论: 正在审核中
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[108] arXiv:2508.13710 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: 基于遗传算法的视频隐写中感兴趣区域选择的优化
标题: Optimizing Region of Interest Selection for Effective Embedding in Video Steganography Based on Genetic Algorithms
Nizheen A. Ali, Ramadhan J. Mstafa
评论: 19页,7图,4表
期刊参考: 计算机系统科学与工程 2023 年,47(2),1451-1469
主题: 图像与视频处理 (eess.IV) ; 密码学与安全 (cs.CR) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[109] arXiv:2508.14222 (交叉列表自 cs.NI) [中文pdf, pdf, html, 其他]
标题: StarStream:空间网络上的实时视频分析
标题: StarStream: Live Video Analytics over Space Networking
Miao Zhang, Jiaxing Li, Haoyuan Zhao, Linfeng Shen, Jiangchuan Liu
评论: 被MM'24接受
主题: 网络与互联网架构 (cs.NI) ; 多媒体 (cs.MM)
[110] arXiv:2508.14237 (交叉列表自 cs.NI) [中文pdf, pdf, html, 其他]
标题: OmniSense:面向360度视频的边缘辅助在线分析
标题: OmniSense: Towards Edge-Assisted Online Analytics for 360-Degree Videos
Miao Zhang, Yifei Zhu, Linfeng Shen, Fangxin Wang, Jiangchuan Liu
评论: 10页;被INFOCOM'23接收
主题: 网络与互联网架构 (cs.NI) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 图像与视频处理 (eess.IV)
[111] arXiv:2508.14475 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 细粒度图像质量评估用于感知图像修复
标题: Fine-grained Image Quality Assessment for Perceptual Image Restoration
Xiangfei Sheng, Xiaofeng Pan, Zhichao Yang, Pengfei Chen, Leida Li
评论: 9页,6图
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[112] arXiv:2508.14706 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 岐珍GPT:面向传统中医的多模态大语言模型
标题: ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine
Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[113] arXiv:2508.15003 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于事件的可扩展视频流传输用于具有MoQ的机器
标题: Scalable Event-Based Video Streaming for Machines with MoQ
Andrew C. Freeman
评论: 被接受到ACM Mile High Video 2025
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[114] arXiv:2508.15418 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: LLaSO:大型语言和语音模型可重复研究的基础框架
标题: LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[115] arXiv:2508.15690 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]
标题: GRAFT:文本对齐的图和表推理——结构化指令遵循和视觉推理的基准
标题: GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning
Abhigya Verma, Sriram Puttagunta, Seganrasan Subramanian, Sravan Ramachandran
评论: 25页,10张表格,3幅图
主题: 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[116] arXiv:2508.15772 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 视觉自回归模型用于指令引导的图像编辑
标题: Visual Autoregressive Modeling for Instruction-Guided Image Editing
Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei
评论: 源代码和模型可在 https://github.com/HiDream-ai/VAREdit 获取
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[117] arXiv:2508.16148 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]
标题: 多模态多项选择题回答的分层视觉-语言推理
标题: Hierarchical Vision-Language Reasoning for Multimodal Multiple-Choice Question Answering
Ao Zhou, Zebo Gu, Tenghao Sun, Jiawen Chen, Mingsheng Tu, Zifeng Cheng, Yafeng Yin, Zhiwei Jiang, Qing Gu
评论: 这篇论文已被ACM MM 2025接受
主题: 信息检索 (cs.IR) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM)
[118] arXiv:2508.16188 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 眼见为信:用于表达性语音生成的情感感知音视频语言建模
标题: Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation
Weiting Tan, Jiachen Lian, Hirofumi Inaguma, Paden Tomasello, Philipp Koehn, Xutai Ma
评论: EMNLP 2025(成果)
主题: 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[119] arXiv:2508.16291 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 通过双流Mamba金字塔网络学习长距离动作表示用于花样滑冰评估
标题: Learning Long-Range Action Representation by Two-Stream Mamba Pyramid Network for Figure Skating Assessment
Fengshun Wang, Qiurui Wang, Peilin Zhao
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[120] arXiv:2508.16439 (交叉列表自 cs.CY) [中文pdf, pdf, html, 其他]
标题: 儿科MQA:一个多模态儿科问答基准
标题: PediatricsMQA: a Multi-modal Pediatrics Question Answering Benchmark
Adil Bahaj, Oumaima Fadi, Mohamed Chetouani, Mounir Ghogho
主题: 计算机与社会 (cs.CY) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 图形学 (cs.GR) ; 多媒体 (cs.MM)
[121] arXiv:2508.16535 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 基于传统显示器的眼动追踪实时三维光场观看
标题: Real-time 3D Light-field Viewing with Eye-tracking on Conventional Displays
Trung Hieu Pham, Chanh Minh Tran, Eiji Kamioka, Xuan Tan Phan
主题: 图形学 (cs.GR) ; 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[122] arXiv:2508.16582 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: 预测虚拟现实中的用户抓取意图
标题: Predicting User Grasp Intentions in Virtual Reality
Linghao Zeng
评论: 45页,24张图。这是作为巴黎综合理工学院(PSL大学)M2 IASD(人工智能、系统、数据)项目的一部分提交的硕士论文
主题: 人机交互 (cs.HC) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[123] arXiv:2508.16605 (交叉列表自 cs.HC) [中文pdf, pdf, 其他]
标题: 太极的节奏:通过交互视觉在虚拟现实中的文化传承复兴
标题: The Rhythm of Tai Chi: Revitalizing Cultural Heritage in Virtual Reality through Interactive Visuals
Xianghan Wang
评论: 被接收至2025年第四届国际图像处理与媒体计算会议(ICIPMC 2025)论文集。ISBN:979-8-3315-1363-4。© 2025 IEEE。这是作者接受的稿件。最终版本将通过IEEE Xplore提供。
主题: 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[124] arXiv:2508.16618 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: 看得见的并不一定是真实的:解决深度伪造在低技术环境中的社会影响
标题: Seeing Isn't Believing: Addressing the Societal Impact of Deepfakes in Low-Tech Environments
Azmine Toushik Wasi, Rahatun Nesa Priti, Mahir Absar Khan, Abdur Rahman, Mst Rafia Islam
评论: 被接受到ACM MM 2025研讨会有害内容在在线网络上的扩散(DHOW)
主题: 人机交互 (cs.HC) ; 计算机与社会 (cs.CY) ; 多媒体 (cs.MM) ; 应用 (stat.AP)
[125] arXiv:2508.16911 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: MDD:一种用于文本和音乐条件二重舞生成的数据集
标题: MDD: A Dataset for Text-and-Music Conditioned Duet Dance Generation
Prerit Gupta, Jason Alexander Fotso-Puepi, Zhengyuan Li, Jay Mehta, Aniket Bera (Purdue University, West Lafayette, IN, USA)
评论: 被ICCV 2025接受。项目页面:https://gprerit96.github.io/mdd-page
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[126] arXiv:2508.17025 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 概率时间掩码注意力用于跨视图在线动作检测
标题: Probabilistic Temporal Masked Attention for Cross-view Online Action Detection
Liping Xie, Yang Tan, Shicheng Jing, Huimin Lu, Kanjian Zhang
评论: 12页,6图,被IEEE多媒体汇刊(TMM)接收,待发表
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[127] arXiv:2508.17121 (交叉列表自 cs.CR) [中文pdf, pdf, html, 其他]
标题: SyncGuard:能够抵御不同步攻击的鲁棒音频水印技术
标题: SyncGuard: Robust Audio Watermarking Capable of Countering Desynchronization Attacks
Zhenliang Gan, Xiaoxiao Hu, Sheng Li, Zhenxing Qian, Xinpeng Zhang
评论: 被ECAI 2025接收
主题: 密码学与安全 (cs.CR) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[128] arXiv:2508.17270 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 时空人体-物体交互检测
标题: Spatial-Temporal Human-Object Interaction Detection
Xu Sun, Yunqing He, Tongwei Ren, Gangshan Wu
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[129] arXiv:2508.17280 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: MTNet:使用Transformer学习模态感知表示的RGBT跟踪
标题: MTNet: Learning modality-aware representation with transformer for RGBT tracking
Ruichao Hou, Boyue Xu, Tongwei Ren, Gangshan Wu
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[130] arXiv:2508.17342 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: DanceEditor:面向具有开放词汇描述的可迭代编辑音乐驱动舞蹈生成
标题: DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions
Hengyuan Zhang, Zhe Li, Xingqun Qi, Mengze Li, Muyi Sun, Man Zhang, Sirui Han
期刊参考: ICCV 2025
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[131] arXiv:2508.17428 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: py360tool:一个用于处理带有瓷砖的360视频的框架$^\circ$
标题: py360tool: Um framework para manipulação de vídeo 360$^\circ$ com ladrilhos
Henrique Domingues Garcia, Marcelo Menezes de Carvalho
评论: 提交至WFA,2025年工具与应用研讨会,第31届巴西多媒体与网络系统研讨会的附属活动
主题: 图像与视频处理 (eess.IV) ; 多媒体 (cs.MM)
[132] arXiv:2508.17920 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: 基于提示的多模态语义通信用于多光谱图像分割
标题: Prompt-based Multimodal Semantic Communication for Multi-spectral Image Segmentation
Haoshuo Zhang, Yufei Bo, Hongwei Zhang, Meixia Tao
评论: 完整版,arXiv:2508.20057,已更新
主题: 图像与视频处理 (eess.IV) ; 多媒体 (cs.MM)
[133] arXiv:2508.17965 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: TuningIQA:直播摄像机调校的细粒度盲图像质量评估
标题: TuningIQA: Fine-Grained Blind Image Quality Assessment for Livestreaming Camera Tuning
Xiangfei Sheng, Zhichao Duan, Xiaofeng Pan, Yipo Huang, Zhichao Yang, Pengfei Chen, Leida Li
评论: 9页,8图
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[134] arXiv:2508.18673 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 基于平衡难度的定制教学:通过提示课程提升多模态思维链中的推理能力
标题: Tailored Teaching with Balanced Difficulty: Elevating Reasoning in Multimodal Chain-of-Thought via Prompt Curriculum
Xinglong Yang, Quan Feng, Zhongying Pan, Xiang Chen, Yu Tian, Wentong Li, Shuofei Qiao, Yuxia Geng, Xingyu Zhao, Sheng-Jun Huang
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[135] arXiv:2508.18734 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 通过路由器门控跨模态特征融合改进噪声鲁棒的视听语音识别
标题: Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion
DongHoon Lim, YoungChae Kim, Dong-Hyun Kim, Da-Hee Yang, Joon-Hyuk Chang
评论: 被IEEE ASRU 2025接收
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP)
[136] arXiv:2508.18781 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]
标题: AniME:用于长期动画生成的自适应多智能体规划
标题: AniME: Adaptive Multi-Agent Planning for Long Animation Generation
Lisai Zhang, Baohan Xu, Siqian Yang, Mingyu Yin, Jing Liu, Chao Xu, Siqi Wang, Yidi Wu, Yuxin Hong, Zihao Zhang, Yanzhang Liang, Yudong Jiang
评论: 2页,技术报告
主题: 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[137] arXiv:2508.18968 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 无损4:2:0屏幕内容编码使用亮度引导的软上下文生成
标题: Lossless 4:2:0 Screen Content Coding Using Luma-Guided Soft Context Formation
Hannah Och, André Kaup
评论: 5页,4图,3表,已被EUSIPCO 2025接收
主题: 图像与视频处理 (eess.IV) ; 多媒体 (cs.MM) ; 信号处理 (eess.SP)
[138] arXiv:2508.19262 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于节拍的MIDI表演节奏量化
标题: Beat-Based Rhythm Quantization of MIDI Performances
Maximilian Wachter, Sebastian Murgul, Michael Heizmann
评论: 被接收为2025年第一届AES国际人工智能与机器学习音频会议(AIMLA LBDP)的最新演示论文。
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[139] arXiv:2508.19622 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: PersoNo:混合现实中的个性化通知紧急程度分类器
标题: PersoNo: Personalised Notification Urgency Classifier in Mixed Reality
Jingyao Zheng, Haodi Weng, Xian Wang, Chengbin Cui, Sven Mayer, Chi-lok Tai, Lik-Hang Lee
评论: 被ISMAR 2025接受
主题: 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[140] arXiv:2508.20088 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 音频故事:使用大型语言模型生成长篇叙事音频
标题: AudioStory: Generating Long-Form Narrative Audio with Large Language Models
Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[141] arXiv:2508.20181 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 通过对象感知偏好优化减轻多模态大语言模型中的幻觉
标题: Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization
Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
评论: BMVC 2025
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM)
[142] arXiv:2508.20250 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于iPhone 15 Pro Max LiDAR的2D视频流高效隐私保护背景去除
标题: Efficient and Privacy-Protecting Background Removal for 2D Video Streaming using iPhone 15 Pro Max LiDAR
Jessica Kinnevan, Naifa Alqahtani, Toral Chauhan
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[143] arXiv:2508.20476 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 面向包容性交流:从手语、口型和音频生成口语语言的统一框架
标题: Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio
Jeong Hun Yeo, Hyeongseop Rha, Sungjune Park, Junil Won, Yong Man Ro
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS) ; 图像与视频处理 (eess.IV)
[144] arXiv:2508.20513 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MoTAS:从TTS增强语音中基于Moe的特征选择用于增强的多模态阿尔茨海默病早期筛查
标题: MoTAS: MoE-Guided Feature Selection from TTS-Augmented Speech for Enhanced Multimodal Alzheimer's Early Screening
Yongqi Shao, Binxin Mei, Cong Tan, Hong Huo, Tao Fang
主题: 声音 (cs.SD) ; 多媒体 (cs.MM)
[145] arXiv:2508.20665 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 阿马迪乌斯:具有双向属性建模的自回归符号音乐模型
标题: Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song
评论: 正在审核中
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[146] arXiv:2508.20670 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: “幽默、艺术还是虚假信息?”:一种用于意图感知的合成图像检测多模态数据集
标题: "Humor, Art, or Misinformation?": A Multimodal Dataset for Intent-Aware Synthetic Image Detection
Anastasios Skoularikis, Stefanos-Iordanis Papadopoulos, Symeon Papadopoulos, Panagiotis C. Petrantonakis
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[147] arXiv:2508.20840 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 学习基本具身世界模型:迈向可扩展的机器人学习
标题: Learning Primitive Embodied World Models: Towards Scalable Robotic Learning
Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[148] arXiv:2508.21052 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: FakeParts:一种新的AI生成的深度伪造技术
标题: FakeParts: a New Family of AI-Generated DeepFakes
Gaetan Brison, Soobash Daiboo, Samy Aimeur, Awais Hussain Sani, Xi Wang, Gianni Franchi, Vicky Kalogeiton
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[149] arXiv:2508.21398 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: GLENDA:妇科腹腔镜子宫内膜异位症数据集
标题: GLENDA: Gynecologic Laparoscopy Endometriosis Dataset
Andreas Leibetseder, Sabrina Kletz, Klaus Schoeffmann, Simon Keckstein, Jörg Keckstein
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[150] arXiv:2508.21399 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 使用深度学习实例分割识别腹腔镜手术器械
标题: Identifying Surgical Instruments in Laparoscopy Using Deep Learning Instance Segmentation
Sabrina Kletz, Klaus Schoeffmann, Jenny Benois-Pineau, Heinrich Husslein
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
总共 151 条目 : 1-50 51-100 101-150 151-151
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号