Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2601.05152

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2601.05152 (cs)
[提交于 2026年1月8日 ]

标题: 非平稳环境下的安全持续强化学习方法。 面向最新技术的综述

标题: Safe Continual Reinforcement Learning Methods for Nonstationary Environments. Towards a Survey of the State of the Art

Authors:Timofey Tomashevskiy
摘要: 这项工作提供了持续安全在线强化学习(COSRL)方法的最新综述。 我们讨论了构建持续在线安全强化学习算法中的理论方面、挑战和开放问题。 我们根据考虑适应非平稳性的安全学习机制类型,提供了持续在线安全强化学习方法的分类和详细内容。 我们对在线强化学习算法的安全约束公式进行了分类,最后,我们讨论了创建可靠、安全在线学习算法的前景。 关键词:非平稳环境中的安全RL,非平稳下的持续安全强化学习,HM-MDP,NSMDP,POMDP,安全POMDP,持续学习的约束,持续安全强化学习综述,持续安全强化学习调查,持续安全强化学习,分布变化下的安全在线学习,持续在线适应的安全性,安全强化学习,安全探索,安全适应,约束马尔可夫决策过程,安全强化学习,部分可观测马尔可夫决策过程,安全强化学习与隐马尔可夫决策过程,安全在线强化学习,安全在线强化学习,安全在线强化学习,安全元学习,安全元强化学习,基于情境的安全强化学习,持续学习的安全约束制定
摘要: This work provides a state-of-the-art survey of continual safe online reinforcement learning (COSRL) methods. We discuss theoretical aspects, challenges, and open questions in building continual online safe reinforcement learning algorithms. We provide the taxonomy and the details of continual online safe reinforcement learning methods based on the type of safe learning mechanism that takes adaptation to nonstationarity into account. We categorize safety constraints formulation for online reinforcement learning algorithms, and finally, we discuss prospects for creating reliable, safe online learning algorithms. Keywords: safe RL in nonstationary environments, safe continual reinforcement learning under nonstationarity, HM-MDP, NSMDP, POMDP, safe POMDP, constraints for continual learning, safe continual reinforcement learning review, safe continual reinforcement learning survey, safe continual reinforcement learning, safe online learning under distribution shift, safe continual online adaptation, safe reinforcement learning, safe exploration, safe adaptation, constrained Markov decision processes, safe reinforcement learning, partially observable Markov decision process, safe reinforcement learning and hidden Markov decision processes, Safe Online Reinforcement Learning, safe online reinforcement learning, safe online reinforcement learning, safe meta-learning, safe meta-reinforcement learning, safe context-based reinforcement learning, formulating safety constraints for continual learning
评论: 20页,4图
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI)
MSC 类: 68-02, 68U07
ACM 类: I.2.0; I.2.6; A.1
引用方式: arXiv:2601.05152 [cs.LG]
  (或者 arXiv:2601.05152v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2601.05152
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Timofey Tomashevskiy [查看电子邮件]
[v1] 星期四, 2026 年 1 月 8 日 17:42:56 UTC (30 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2026-01
切换浏览方式为:
cs.AI
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号