计算机科学 > 机器学习
[提交于 2025年9月18日
]
标题: 样本高效的非平稳环境经验回放
标题: Sample Efficient Experience Replay in Non-stationary Environments
摘要: 强化学习(RL)在非平稳环境中具有挑战性,因为动态变化和奖励会迅速使过去的经历过时。 传统的经验回放(ER)方法,特别是那些使用TD误差优先级的方法,在区分代理策略引起的变化和环境引起的变化方面存在困难,导致在动态条件下学习效率低下。 为了解决这一挑战,我们提出了环境动态差异(DoE),这是一种将环境变化对价值函数的影响隔离的度量标准。 在此基础上,我们引入了环境优先经验回放差异(DEER),这是一种自适应的ER框架,根据策略更新和环境变化对转换进行优先级排序。 DEER使用二元分类器检测环境变化,并在每次变化前后应用不同的优先级策略,从而实现更高效的样本学习。 在四个非平稳基准测试中的实验表明,与最先进的ER方法相比,DEER进一步将离策略算法的性能提高了11.54%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.