计算机科学 > 机器学习
[提交于 2023年5月31日
]
标题: ROSARL:仅奖励安全强化学习
标题: ROSARL: Reward-Only Safe Reinforcement Learning
摘要: 在强化学习中,一个重要的问题是设计能够在环境中安全地解决问题的智能体。 常见的解决方案是让人类专家在奖励函数中定义惩罚,或在到达不安全状态时定义需要最小化的成本。 然而,这并不容易,因为惩罚过小可能导致智能体到达不安全状态,而惩罚过大则会增加收敛时间。 此外,设计奖励或成本函数的难度可能随着问题复杂性的增加而增加。 因此,对于给定环境和一组不安全状态,我们感兴趣的是找到不安全状态下奖励的上界,其最优策略能够最小化到达这些不安全状态的概率,而不管任务奖励如何。 我们将这个精确的上界称为“最小最大惩罚”,并证明可以通过考虑环境的可控性和直径来获得它。 我们提供了一个简单实用的无模型算法,使智能体在学习任务策略的同时学习这个最小最大惩罚,并证明使用它可以使智能体在高维连续控制环境中学习到安全策略。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.