计算机科学 > 机器学习
[提交于 2023年6月1日
]
标题: 使用强化学习在多智能体马尔可夫决策过程中的公平性实现
标题: Achieving Fairness in Multi-Agent Markov Decision Processes Using Reinforcement Learning
摘要: 公平在各种多智能体系统(例如,通信网络、金融市场等)中起着关键作用。 许多多智能体动态交互可以表示为马尔可夫决策过程(MDPs)。 尽管现有研究集中在已知环境中的公平性研究,但此类系统在未知环境中的公平性探索仍是一个开放问题。 在本文中,我们提出一种强化学习(RL)方法,以在多智能体有限时间范围的周期性MDPs中实现公平性。 我们引入一个公平函数,而不是最大化个体智能体的价值函数之和,以确保 across agents 的公平奖励。 由于当个体价值函数之和不是最大时,经典的贝尔曼方程不成立,因此我们不能使用传统方法。 相反,为了探索,我们维护未知环境的置信度边界,然后提出一种基于在线凸优化的方法,以获得受限于该置信区域的策略。 我们证明这种方法在周期数方面实现了次线性遗憾。 此外,我们基于获得的遗憾界提供了可能近似正确(PAC)保证。 我们还提出了一种离线RL算法,并与最优公平解相比界定了最优性差距。 为了减轻计算复杂性,我们引入了一种针对公平目标的策略梯度方法。 模拟实验也证明了我们方法的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.