计算机科学 > 人工智能
[提交于 2025年8月2日
(v1)
,最后修订 2025年10月11日 (此版本, v2)]
标题: 基准测试与弥合情感冲突以实现多模态情感推理
标题: Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning
摘要: 尽管在多模态情感推理方面表现出色,现有的多模态大语言模型(MLLMs)通常会忽略涉及情感冲突的场景,其中不同模态的情感线索不一致。为了填补这一空白,我们首先引入CA-MER,一个新的基准,旨在在现实的情感冲突下检验MLLMs。它包含三个子集:视频对齐、音频对齐和一致,其中只有一个或所有模态反映真实情感。然而,在我们的CA-MER上的评估表明,当前最先进的情感MLLMs在情感冲突中系统性地过度依赖音频信号,忽视了视觉模态的关键线索。为了缓解这种偏差,我们提出了MoSEAR,一种参数高效的框架,促进平衡的模态整合。MoSEAR包含两个模块:(1) MoSE,具有正则化门控机制的模态特定专家,减少了微调头部中的模态偏差;以及(2) AR,一种注意力再分配机制,在推理期间重新平衡冻结主干中的模态贡献。我们的框架提供了两个关键优势:它减轻了情感冲突,并提高了在一致样本上的性能——而不会在音频和视觉模态之间产生权衡。在多个基准测试上的实验——包括MER2023、EMER、DFEW和我们的CA-MER——证明MoSEAR实现了最先进性能,特别是在模态冲突条件下。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.