计算机科学 > 机器人技术
            [提交于 2025年8月16日
            
             (v1)
            
            
              ,最后修订 2025年8月28日 (此版本, v2)]
          
          标题: LocoMamba:通过Mamba的端到端深度强化学习实现视觉驱动的运动
标题: LocoMamba: Vision-Driven Locomotion via End-to-End Deep Reinforcement Learning with Mamba
摘要: 我们引入了LocoMamba,这是一个基于选择性状态空间模型的视觉驱动跨模态深度强化学习框架,特别利用了Mamba,实现了接近线性时间的序列建模,有效捕捉长距离依赖关系,并实现了更长序列的高效训练。 首先,我们使用多层感知机嵌入本体感受状态,并使用轻量级卷积神经网络对深度图像进行分块处理,生成紧凑的标记,以改善状态表示。 其次,堆叠的Mamba层通过接近线性时间的选择性扫描融合这些标记,降低延迟和内存占用,保持对标记长度和图像分辨率的鲁棒性,并提供一种归纳偏差以减轻过拟合。 第三,我们在地形和外观随机化以及障碍物密度课程下,使用近端策略优化对策略进行端到端训练,采用一种紧凑的状态中心奖励,平衡进展、平滑性和安全性。 我们在具有静态和移动障碍物以及不平坦地形的具有挑战性的模拟环境中评估我们的方法。 与最先进的基线方法相比,我们的方法在较少碰撞的情况下实现了更高的回报和成功率,表现出对未见过的地形和障碍物密度更强的泛化能力,并在相同的计算预算下通过更少的更新次数收敛,从而提高了训练效率。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
               
  