计算机科学 > 机器学习
[提交于 2022年2月11日
]
标题: 在未知动力学的线性二次调节器中进行速率匹配的遗憾下界
标题: Rate-matching the regret lower-bound in the linear quadratic regulator with unknown dynamics
摘要: 强化学习理论目前在其实证性能与性能的理论表征之间存在不匹配,这会对例如样本效率、安全性和鲁棒性的理解产生影响。 未知动态的线性二次调节器是一个基础的强化学习设置,在其动态和成本函数中具有显著的结构,但即使在这个设置中,已知的最佳遗憾下界为$\Omega_p(\sqrt{T})$与最佳已知上界$O_p(\sqrt{T}\,\text{polylog}(T))$之间仍存在差距。 本文的贡献是通过建立一个新颖的遗憾上界$O_p(\sqrt{T})$来填补这一差距。 我们的证明是构造性的,因为它分析了一个具体算法的遗憾,并同时建立了对$O_p(T^{-1/4})$动态的估计误差界,这也是第一个与已知下界速率相匹配的。 我们改进的证明技术的两个关键点是(1)对系统Gram矩阵更精确的上下界,以及(2)对最优控制器期望估计误差的自界论证。
当前浏览上下文:
cs.LG
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.