Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2509.14860

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2509.14860 (cs)
[提交于 2025年9月18日 ]

标题: MARIC:图像分类的多智能体推理

标题: MARIC: Multi-Agent Reasoning for Image Classification

Authors:Wonduk Seo, Minhyeong Yu, Hyunjin An, Seunghyun Lee
摘要: 图像分类传统上依赖于参数密集型模型训练,需要大规模标注数据集和广泛的微调才能实现有竞争力的性能。 尽管最近的视觉语言模型(VLMs)减轻了这些限制,但它们仍受限于对单次传递表示的依赖,通常无法捕捉视觉内容的互补方面。 在本文中,我们引入了基于多智能体的图像分类推理(MARIC),这是一个多智能体框架,将图像分类重新表述为协作推理过程。 MARIC首先利用一个轮廓智能体来分析图像的全局主题并生成针对性提示。 基于这些提示,三个方面智能体沿着不同的视觉维度提取细粒度描述。 最后,推理智能体通过集成反思步骤合成这些互补输出,生成用于分类的统一表示。 通过明确将任务分解为多个视角并鼓励反思性合成,MARIC弥补了参数密集型训练和单一VLM推理的不足。 在4个不同的图像分类基准数据集上的实验表明,MARIC显著优于基线,突显了多智能体视觉推理在鲁棒和可解释图像分类中的有效性。
摘要: Image classification has traditionally relied on parameter-intensive model training, requiring large-scale annotated datasets and extensive fine tuning to achieve competitive performance. While recent vision language models (VLMs) alleviate some of these constraints, they remain limited by their reliance on single pass representations, often failing to capture complementary aspects of visual content. In this paper, we introduce Multi Agent based Reasoning for Image Classification (MARIC), a multi agent framework that reformulates image classification as a collaborative reasoning process. MARIC first utilizes an Outliner Agent to analyze the global theme of the image and generate targeted prompts. Based on these prompts, three Aspect Agents extract fine grained descriptions along distinct visual dimensions. Finally, a Reasoning Agent synthesizes these complementary outputs through integrated reflection step, producing a unified representation for classification. By explicitly decomposing the task into multiple perspectives and encouraging reflective synthesis, MARIC mitigates the shortcomings of both parameter-heavy training and monolithic VLM reasoning. Experiments on 4 diverse image classification benchmark datasets demonstrate that MARIC significantly outperforms baselines, highlighting the effectiveness of multi-agent visual reasoning for robust and interpretable image classification.
评论: 预印本
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI); 计算与语言 (cs.CL); 多智能体系统 (cs.MA)
引用方式: arXiv:2509.14860 [cs.CV]
  (或者 arXiv:2509.14860v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.14860
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Wonduk Seo [查看电子邮件]
[v1] 星期四, 2025 年 9 月 18 日 11:27:00 UTC (665 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
cs
cs.AI
cs.CL
cs.MA

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号