Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2509.15042

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2509.15042 (cs)
[提交于 2025年9月18日 ]

标题: 用于2D射击游戏的强化学习智能体

标题: Reinforcement Learning Agent for a 2D Shooter Game

Authors:Thomas Ackermann, Moritz Spang, Hamza A. A. Gardi
摘要: 在复杂游戏环境中的强化学习智能体常常面临稀疏奖励、训练不稳定和样本效率低的问题。 本文提出了一种混合训练方法,将离线模仿学习与在线强化学习相结合,用于二维射击游戏的智能体。 我们实现了一个多头神经网络,分别输出行为克隆和Q学习的结果,通过带有注意力机制的共享特征提取层进行统一。 使用纯深度Q网络的初步实验表现出显著的不稳定性,智能体尽管偶尔表现良好,但经常退化为较差的策略。 为了解决这个问题,我们开发了一种混合方法,首先在基于规则的智能体的演示数据上进行行为克隆,然后过渡到强化学习。 我们的混合方法在对抗基于规则的对手时,始终达到70%以上的胜率,明显优于纯强化学习方法,后者表现出较高的方差和频繁的性能下降。 多头架构使得不同学习模式之间的知识迁移更加有效,同时保持了训练的稳定性。 结果表明,将基于演示的初始化与强化学习优化相结合,为在复杂多智能体环境中开发游戏AI智能体提供了一个稳健的解决方案,其中纯粹的探索证明是不足的。
摘要: Reinforcement learning agents in complex game environments often suffer from sparse rewards, training instability, and poor sample efficiency. This paper presents a hybrid training approach that combines offline imitation learning with online reinforcement learning for a 2D shooter game agent. We implement a multi-head neural network with separate outputs for behavioral cloning and Q-learning, unified by shared feature extraction layers with attention mechanisms. Initial experiments using pure deep Q-Networks exhibited significant instability, with agents frequently reverting to poor policies despite occasional good performance. To address this, we developed a hybrid methodology that begins with behavioral cloning on demonstration data from rule-based agents, then transitions to reinforcement learning. Our hybrid approach achieves consistently above 70% win rate against rule-based opponents, substantially outperforming pure reinforcement learning methods which showed high variance and frequent performance degradation. The multi-head architecture enables effective knowledge transfer between learning modes while maintaining training stability. Results demonstrate that combining demonstration-based initialization with reinforcement learning optimization provides a robust solution for developing game AI agents in complex multi-agent environments where pure exploration proves insufficient.
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI)
引用方式: arXiv:2509.15042 [cs.LG]
  (或者 arXiv:2509.15042v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.15042
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Hamza A. A. Gardi [查看电子邮件]
[v1] 星期四, 2025 年 9 月 18 日 15:07:41 UTC (1,223 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号