Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.07648

帮助 | 高级搜索

计算机科学 > 机器人技术

arXiv:2508.07648 (cs)
[提交于 2025年8月11日 ]

标题: Grasp-HGN:抓取意外情况

标题: Grasp-HGN: Grasping the Unexpected

Authors:Mehrshad Zandigohar, Mallesham Dasari, Gunar Schirner
摘要: 对于经桡侧截肢者来说,机器人假手有望恢复进行日常活动的能力。 为了推进下一代假手控制设计,解决现有系统在实验室外的干扰因素下的鲁棒性不足以及在新环境中的泛化能力差的问题至关重要。 由于现有数据集中可交互的对象数量有限,而现实世界中物体种类几乎无限,当前抓握模型在未见过的物体上表现不佳,这影响了用户的独立性和生活质量。 为了解决这个问题:(i) 我们定义了语义投影,即模型对未见过物体类型的泛化能力,并表明传统模型如YOLO尽管训练准确率达到80%,但在未见过的物体上下降到15%。 (ii) 我们提出了Grasp-LLaVA,这是一种抓握视觉语言模型,能够根据物体的物理特性进行类人推理,从而推断合适的抓握类型,与最先进的抓握估计模型相比,在未见过的物体类型上取得了显著的50.2%的准确率,而后者为36.7%。 最后,为了弥合性能与延迟之间的差距,我们提出了混合抓握网络(HGN),这是一种边缘-云部署基础设施,能够在边缘快速进行抓握估计,并在云端进行精确推理作为备用方案,有效扩展了延迟与准确率的帕累托前沿。 带有置信度校准(DC)的HGN能够在边缘和云模型之间动态切换,使语义投影准确率提高5.6%(达到42.3%),在未见过的物体类型上的速度提升了3.5倍。 在真实世界样本混合测试中,其平均准确率达到86%(比仅使用边缘模型提高了12.2%),并且推理速度是Grasp-LLaVA单独使用的2.2倍。
摘要: For transradial amputees, robotic prosthetic hands promise to regain the capability to perform daily living activities. To advance next-generation prosthetic hand control design, it is crucial to address current shortcomings in robustness to out of lab artifacts, and generalizability to new environments. Due to the fixed number of object to interact with in existing datasets, contrasted with the virtually infinite variety of objects encountered in the real world, current grasp models perform poorly on unseen objects, negatively affecting users' independence and quality of life. To address this: (i) we define semantic projection, the ability of a model to generalize to unseen object types and show that conventional models like YOLO, despite 80% training accuracy, drop to 15% on unseen objects. (ii) we propose Grasp-LLaVA, a Grasp Vision Language Model enabling human-like reasoning to infer the suitable grasp type estimate based on the object's physical characteristics resulting in a significant 50.2% accuracy over unseen object types compared to 36.7% accuracy of an SOTA grasp estimation model. Lastly, to bridge the performance-latency gap, we propose Hybrid Grasp Network (HGN), an edge-cloud deployment infrastructure enabling fast grasp estimation on edge and accurate cloud inference as a fail-safe, effectively expanding the latency vs. accuracy Pareto. HGN with confidence calibration (DC) enables dynamic switching between edge and cloud models, improving semantic projection accuracy by 5.6% (to 42.3%) with 3.5x speedup over the unseen object types. Over a real-world sample mix, it reaches 86% average accuracy (12.2% gain over edge-only), and 2.2x faster inference than Grasp-LLaVA alone.
评论: 论文被ACM嵌入式计算系统汇刊接收
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI); 机器学习 (cs.LG)
引用方式: arXiv:2508.07648 [cs.RO]
  (或者 arXiv:2508.07648v1 [cs.RO] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.07648
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Mehrshad Zandigohar [查看电子邮件]
[v1] 星期一, 2025 年 8 月 11 日 05:58:28 UTC (2,532 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.RO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.AI
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号