Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2202.05799

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2202.05799 (cs)
[提交于 2022年2月11日 ]

标题: 在未知动力学的线性二次调节器中进行速率匹配的遗憾下界

标题: Rate-matching the regret lower-bound in the linear quadratic regulator with unknown dynamics

Authors:Feicheng Wang, Lucas Janson
摘要: 强化学习理论目前在其实证性能与性能的理论表征之间存在不匹配,这会对例如样本效率、安全性和鲁棒性的理解产生影响。 未知动态的线性二次调节器是一个基础的强化学习设置,在其动态和成本函数中具有显著的结构,但即使在这个设置中,已知的最佳遗憾下界为$\Omega_p(\sqrt{T})$与最佳已知上界$O_p(\sqrt{T}\,\text{polylog}(T))$之间仍存在差距。 本文的贡献是通过建立一个新颖的遗憾上界$O_p(\sqrt{T})$来填补这一差距。 我们的证明是构造性的,因为它分析了一个具体算法的遗憾,并同时建立了对$O_p(T^{-1/4})$动态的估计误差界,这也是第一个与已知下界速率相匹配的。 我们改进的证明技术的两个关键点是(1)对系统Gram矩阵更精确的上下界,以及(2)对最优控制器期望估计误差的自界论证。
摘要: The theory of reinforcement learning currently suffers from a mismatch between its empirical performance and the theoretical characterization of its performance, with consequences for, e.g., the understanding of sample efficiency, safety, and robustness. The linear quadratic regulator with unknown dynamics is a fundamental reinforcement learning setting with significant structure in its dynamics and cost function, yet even in this setting there is a gap between the best known regret lower-bound of $\Omega_p(\sqrt{T})$ and the best known upper-bound of $O_p(\sqrt{T}\,\text{polylog}(T))$. The contribution of this paper is to close that gap by establishing a novel regret upper-bound of $O_p(\sqrt{T})$. Our proof is constructive in that it analyzes the regret of a concrete algorithm, and simultaneously establishes an estimation error bound on the dynamics of $O_p(T^{-1/4})$ which is also the first to match the rate of a known lower-bound. The two keys to our improved proof technique are (1) a more precise upper- and lower-bound on the system Gram matrix and (2) a self-bounding argument for the expected estimation error of the optimal controller.
主题: 机器学习 (cs.LG) ; 系统与控制 (eess.SY); 统计理论 (math.ST)
引用方式: arXiv:2202.05799 [cs.LG]
  (或者 arXiv:2202.05799v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2202.05799
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Feicheng Wang [查看电子邮件]
[v1] 星期五, 2022 年 2 月 11 日 17:50:14 UTC (49 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2022-02
切换浏览方式为:
cs
cs.SY
eess
eess.SY
math
math.ST
stat
stat.TH

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号