计算机科学 > 人工智能
[提交于 2025年8月12日
]
标题: 奥赛罗人工智能竞技场:通过有限时间适应未见过的棋盘来评估智能系统
标题: The Othello AI Arena: Evaluating Intelligent Systems Through Limited-Time Adaptation to Unseen Boards
摘要: 快速适应新出现和不可预见环境变化的能力是人工通用智能(AGI)的基石,然而这在大多数现有的AI基准测试中仍然是一个关键的盲点。传统的评估主要集中在固定环境内的性能优化,未能评估系统在面对即使是细微规则或结构修改时的灵活性和泛化能力。为解决这一差距,我引入了奥赛罗AI竞技场,这是一个新的基准框架,旨在根据智能系统在有限时间内适应未见过环境的能力来评估它们。我们的平台提出了一个元学习挑战:参与者必须开发能够在严格时间限制(60秒)内分析新型奥赛罗棋盘的具体配置和规则,并为该独特环境生成定制的高性能策略的系统。通过这种方式,可以将元级智能的评估与任务级策略性能分开。竞技场包含一系列多样的游戏阶段,包括用于开发的公开阶段和具有结构和规则变化的私有阶段,旨在测试真正的适应性和泛化能力。作为可访问的基于网络的平台实现,竞技场提供了实时可视化、使用多维指标的自动评估以及全面的日志记录以供事后分析。初步测试和初步学生参与的观察结果揭示了适应方法中的有趣模式,从快速参数调整到通过模拟进行基本环境模型学习。奥赛罗AI竞技场提供了一个独特的教育工具和有价值的科研基准,用于培养和评估AI系统中快速、智能适应这一关键技能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.