电气工程与系统科学 > 系统与控制
[提交于 2024年3月8日
(v1)
,最后修订 2025年2月18日 (此版本, v2)]
标题: 基于递归学习和策略梯度的稳定认证的在线策略数据驱动LQR
标题: Stability-Certified On-Policy Data-Driven LQR via Recursive Learning and Policy Gradient
摘要: 在本文中,我们研究了一个数据驱动的框架,在动态未知的情况下解决线性二次调节器(LQR)问题,并且还面临为整个学习和控制方案提供稳定性证明的额外挑战。 具体而言,在所提出的在线策略学习框架中,控制输入被应用于实际(未知)的线性系统,并且不断优化。 我们提出了一种称为Relearn LQR的学习和控制过程,该过程结合了递归最小二乘法与基于梯度方法的直接策略搜索。 所得到的方案通过将其建模为反馈互连的非线性动态系统进行分析。 一种基于李雅普诺夫的方法,利用非线性系统的平均化和时标分离理论,使我们能够为整个互联系统提供正式的稳定性保证。 所提出策略的有效性通过数值仿真得到验证,其中Relearn LQR被应用于飞机控制问题,包括静态和漂移参数。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.