数学 > 统计理论
[提交于 2025年8月11日
]
标题: 向有限时间范围内噪声线性二次强化学习中的最优统计推断迈进
标题: Toward Optimal Statistical Inference in Noisy Linear Quadratic Reinforcement Learning over a Finite Horizon
摘要: 强化学习的最新进展显著提高了在不确定环境中的序列决策能力。 尽管现有工作在提升学习控制策略的操作精度和学习算法的收敛速度方面取得了显著成效,但对不确定性量化和统计推断的关注相对较少。 然而,这些方面对于评估控制策略的可靠性和变异性至关重要,特别是在高风险应用中。 在本文中,我们研究了在有限时间范围内噪声线性二次强化学习(LQ RL)中策略梯度(PG)方法的统计推断问题,其中线性动力学在已知和未知漂移参数的情况下受到二次成本的约束。 我们建立了LQ RL中统计推断的理论基础,推导了PG估计量及其相应目标损失的精确渐近结果。 此外,我们引入了一个合理的推断框架,利用在线自助法为学习到的最优策略及其相应的目标损失构建置信区间。 该方法在新观测数据到达时更新PG估计量以及一组随机扰动的PG估计量。 我们证明了所提出的自助程序在分布上是一致的,并且得到的置信区间在渐近和非渐近意义上都有效。 值得注意的是,我们的结果表明,精确分布的分位数可以以$n^{-1/4}$的速率进行近似,其中$n$是该过程中使用的样本数量。 所提出的方法易于实现,适用于离线和完全在线设置。 数值实验展示了我们在一系列噪声线性动态系统中方法的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.