计算机科学 > 机器学习
[提交于 2023年6月1日
(v1)
,最后修订 2024年3月16日 (此版本, v2)]
标题: 通过融合启发式方法改进离线强化学习
标题: Improving Offline RL by Blending Heuristics
摘要: 我们提出启发式混合(HUBL),这是一种基于值引导的离线强化学习算法的广泛类别的简单性能提升技术。 HUBL修改了这些算法中使用的贝尔曼算子,部分用通过蒙特卡洛回报估计的启发式值替换引导值。 对于回报较高的轨迹,HUBL更依赖启发式值,而较少依赖引导;否则,它更依赖引导。 HUBL可以通过用调整后的奖励和折扣因子重新标记离线数据集,很容易地与许多现有的离线强化学习实现结合。 我们推导出一种理论,解释HUBL对离线强化学习的影响,即降低离线强化学习的复杂性,从而提高其有限样本性能。 此外,我们通过实证证明,HUBL在D4RL和Meta-World基准的27个数据集上,平均提高了四种最先进的基于引导的离线强化学习算法(ATAC、CQL、TD3+BC和IQL)的策略质量,提高幅度为9%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.