Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > quant-ph > arXiv:2508.05712

帮助 | 高级搜索

量子物理

arXiv:2508.05712 (quant-ph)
[提交于 2025年8月7日 ]

标题: 量子算法用于有限时间范围的马尔可夫决策过程

标题: Quantum Algorithms for Finite-horizon Markov Decision Processes

Authors:Bin Luo, Yuwen Huang, Jonathan Allcock, Xiaojun Lin, Shengyu Zhang, John C.S. Lui
摘要: 在本工作中,我们设计了比经典算法更高效的量子算法来解决两种不同情况下的时变和有限时间范围的马尔可夫决策过程(MDPs):(1) 在精确动力学设置中,代理完全了解环境的动力学(即转移概率),我们证明我们的$\textbf{Quantum Value Iteration (QVI)}$算法$\textbf{QVI-1}$在计算最优策略($\pi^{*}$)和最优 V 值函数($V_{0}^{*}$)方面相比经典值迭代算法在动作空间大小$(A)$上实现了二次加速。此外,当获得近似最优策略和 V 值函数时,我们的算法$\textbf{QVI-2}$在状态空间大小$(S)$上提供了额外的加速。 两者$\textbf{QVI-1}$和$\textbf{QVI-2}$都实现了量子查询复杂度,其在对$S$和$A$的依赖上可证明优于经典下界。 (2) 在生成模型设置中,当环境中的样本以量子叠加态可访问时,我们证明了我们的算法$\textbf{QVI-3}$和$\textbf{QVI-4}$在样本复杂度方面相对于最先进的经典算法在$A$、估计误差$(\epsilon)$和时间范围$(H)$方面有所改进。 更重要的是,我们证明了量子下界,以表明假设时间范围是常数,$\textbf{QVI-3}$和$\textbf{QVI-4}$在对数因子范围内是渐近最优的。
摘要: In this work, we design quantum algorithms that are more efficient than classical algorithms to solve time-dependent and finite-horizon Markov Decision Processes (MDPs) in two distinct settings: (1) In the exact dynamics setting, where the agent has full knowledge of the environment's dynamics (i.e., transition probabilities), we prove that our $\textbf{Quantum Value Iteration (QVI)}$ algorithm $\textbf{QVI-1}$ achieves a quadratic speedup in the size of the action space $(A)$ compared with the classical value iteration algorithm for computing the optimal policy ($\pi^{*}$) and the optimal V-value function ($V_{0}^{*}$). Furthermore, our algorithm $\textbf{QVI-2}$ provides an additional speedup in the size of the state space $(S)$ when obtaining near-optimal policies and V-value functions. Both $\textbf{QVI-1}$ and $\textbf{QVI-2}$ achieve quantum query complexities that provably improve upon classical lower bounds, particularly in their dependences on $S$ and $A$. (2) In the generative model setting, where samples from the environment are accessible in quantum superposition, we prove that our algorithms $\textbf{QVI-3}$ and $\textbf{QVI-4}$ achieve improvements in sample complexity over the state-of-the-art (SOTA) classical algorithm in terms of $A$, estimation error $(\epsilon)$, and time horizon $(H)$. More importantly, we prove quantum lower bounds to show that $\textbf{QVI-3}$ and $\textbf{QVI-4}$ are asymptotically optimal, up to logarithmic factors, assuming a constant time horizon.
评论: 被第42届国际机器学习大会(ICML 2025)接受
主题: 量子物理 (quant-ph)
引用方式: arXiv:2508.05712 [quant-ph]
  (或者 arXiv:2508.05712v1 [quant-ph] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.05712
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Bin Luo [查看电子邮件]
[v1] 星期四, 2025 年 8 月 7 日 09:00:23 UTC (109 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
quant-ph
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号