计算机科学 > 机器人技术
[提交于 2025年8月7日
(v1)
,最后修订 2025年8月14日 (此版本, v2)]
标题: 面向具身代理人工智能:大模型和视觉语言模型驱动的机器人自主性和交互性的综述与分类
标题: Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction
摘要: 基础模型,包括大型语言模型(LLMs)和视觉语言模型(VLMs),最近使得机器人自主性和人机接口有了新的方法。 同时,视觉语言动作模型(VLAs)或大型行为模型(LBMs)正在提高机器人系统的灵巧性和能力。 这篇综述论文关注那些朝着代理应用和架构发展的作品。 这包括最初的尝试探索GPT风格的工具接口,以及更复杂的系统,在这些系统中AI代理是协调者、规划者、感知执行者或通用接口。 这样的代理架构使机器人能够对自然语言指令进行推理,调用API,规划任务序列,或在操作和诊断中提供帮助。 除了同行评审的研究外,由于该领域的快速发展,我们还强调并包括展示新兴趋势的社区驱动项目、ROS包和工业框架。 我们提出了一种分类模型集成方法的分类法,并展示了代理在当今文献中不同解决方案中所扮演角色的比较分析。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.