计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: ReasonAct:小模型中细粒度视频推理的渐进式训练
标题: ReasonAct: Progressive Training for Fine-Grained Video Reasoning in Small Models
摘要: 虽然最近的多模态模型在视觉-语言任务中取得了进展,但小规模变体在视频理解所需的细粒度时间推理方面仍然存在困难。 我们引入了ReasonAct,这是一种通过三阶段训练过程增强小型模型视频推理的方法:首先通过仅文本推理建立基础,然后在视频上进行微调,最后通过时间感知强化学习进行精炼。 我们通过将时间一致性建模引入策略优化,改进了时间组相对策略优化(T-GRPO)。 我们还提出了一种生物力学驱动的子动作分解机制,为构成动作阶段提供渐进式奖励。 在HMDB51、UCF-101和Kinetics-400上的实验表明,我们的3B参数模型分别达到了67.2%、94.1%和78.9%的准确率,分别比基线提高了17.9、15.8和12.3分。 消融研究验证了我们的渐进式训练方法使小型模型能够在保持计算效率的同时实现具有竞争力的视频推理性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.