量子物理
[提交于 2025年8月7日
]
标题: 量子算法用于有限时间范围的马尔可夫决策过程
标题: Quantum Algorithms for Finite-horizon Markov Decision Processes
摘要: 在本工作中,我们设计了比经典算法更高效的量子算法来解决两种不同情况下的时变和有限时间范围的马尔可夫决策过程(MDPs):(1) 在精确动力学设置中,代理完全了解环境的动力学(即转移概率),我们证明我们的$\textbf{Quantum Value Iteration (QVI)}$算法$\textbf{QVI-1}$在计算最优策略($\pi^{*}$)和最优 V 值函数($V_{0}^{*}$)方面相比经典值迭代算法在动作空间大小$(A)$上实现了二次加速。此外,当获得近似最优策略和 V 值函数时,我们的算法$\textbf{QVI-2}$在状态空间大小$(S)$上提供了额外的加速。 两者$\textbf{QVI-1}$和$\textbf{QVI-2}$都实现了量子查询复杂度,其在对$S$和$A$的依赖上可证明优于经典下界。 (2) 在生成模型设置中,当环境中的样本以量子叠加态可访问时,我们证明了我们的算法$\textbf{QVI-3}$和$\textbf{QVI-4}$在样本复杂度方面相对于最先进的经典算法在$A$、估计误差$(\epsilon)$和时间范围$(H)$方面有所改进。 更重要的是,我们证明了量子下界,以表明假设时间范围是常数,$\textbf{QVI-3}$和$\textbf{QVI-4}$在对数因子范围内是渐近最优的。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.