计算机科学 > 机器人技术
[提交于 2025年8月11日
]
标题: Grasp-HGN:抓取意外情况
标题: Grasp-HGN: Grasping the Unexpected
摘要: 对于经桡侧截肢者来说,机器人假手有望恢复进行日常活动的能力。 为了推进下一代假手控制设计,解决现有系统在实验室外的干扰因素下的鲁棒性不足以及在新环境中的泛化能力差的问题至关重要。 由于现有数据集中可交互的对象数量有限,而现实世界中物体种类几乎无限,当前抓握模型在未见过的物体上表现不佳,这影响了用户的独立性和生活质量。 为了解决这个问题:(i) 我们定义了语义投影,即模型对未见过物体类型的泛化能力,并表明传统模型如YOLO尽管训练准确率达到80%,但在未见过的物体上下降到15%。 (ii) 我们提出了Grasp-LLaVA,这是一种抓握视觉语言模型,能够根据物体的物理特性进行类人推理,从而推断合适的抓握类型,与最先进的抓握估计模型相比,在未见过的物体类型上取得了显著的50.2%的准确率,而后者为36.7%。 最后,为了弥合性能与延迟之间的差距,我们提出了混合抓握网络(HGN),这是一种边缘-云部署基础设施,能够在边缘快速进行抓握估计,并在云端进行精确推理作为备用方案,有效扩展了延迟与准确率的帕累托前沿。 带有置信度校准(DC)的HGN能够在边缘和云模型之间动态切换,使语义投影准确率提高5.6%(达到42.3%),在未见过的物体类型上的速度提升了3.5倍。 在真实世界样本混合测试中,其平均准确率达到86%(比仅使用边缘模型提高了12.2%),并且推理速度是Grasp-LLaVA单独使用的2.2倍。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.