Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2306.00324

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2306.00324 (cs)
[提交于 2023年6月1日 ]

标题: 使用强化学习在多智能体马尔可夫决策过程中的公平性实现

标题: Achieving Fairness in Multi-Agent Markov Decision Processes Using Reinforcement Learning

Authors:Peizhong Ju, Arnob Ghosh, Ness B. Shroff
摘要: 公平在各种多智能体系统(例如,通信网络、金融市场等)中起着关键作用。 许多多智能体动态交互可以表示为马尔可夫决策过程(MDPs)。 尽管现有研究集中在已知环境中的公平性研究,但此类系统在未知环境中的公平性探索仍是一个开放问题。 在本文中,我们提出一种强化学习(RL)方法,以在多智能体有限时间范围的周期性MDPs中实现公平性。 我们引入一个公平函数,而不是最大化个体智能体的价值函数之和,以确保 across agents 的公平奖励。 由于当个体价值函数之和不是最大时,经典的贝尔曼方程不成立,因此我们不能使用传统方法。 相反,为了探索,我们维护未知环境的置信度边界,然后提出一种基于在线凸优化的方法,以获得受限于该置信区域的策略。 我们证明这种方法在周期数方面实现了次线性遗憾。 此外,我们基于获得的遗憾界提供了可能近似正确(PAC)保证。 我们还提出了一种离线RL算法,并与最优公平解相比界定了最优性差距。 为了减轻计算复杂性,我们引入了一种针对公平目标的策略梯度方法。 模拟实验也证明了我们方法的有效性。
摘要: Fairness plays a crucial role in various multi-agent systems (e.g., communication networks, financial markets, etc.). Many multi-agent dynamical interactions can be cast as Markov Decision Processes (MDPs). While existing research has focused on studying fairness in known environments, the exploration of fairness in such systems for unknown environments remains open. In this paper, we propose a Reinforcement Learning (RL) approach to achieve fairness in multi-agent finite-horizon episodic MDPs. Instead of maximizing the sum of individual agents' value functions, we introduce a fairness function that ensures equitable rewards across agents. Since the classical Bellman's equation does not hold when the sum of individual value functions is not maximized, we cannot use traditional approaches. Instead, in order to explore, we maintain a confidence bound of the unknown environment and then propose an online convex optimization based approach to obtain a policy constrained to this confidence region. We show that such an approach achieves sub-linear regret in terms of the number of episodes. Additionally, we provide a probably approximately correct (PAC) guarantee based on the obtained regret bound. We also propose an offline RL algorithm and bound the optimality gap with respect to the optimal fair solution. To mitigate computational complexity, we introduce a policy-gradient type method for the fair objective. Simulation experiments also demonstrate the efficacy of our approach.
主题: 机器学习 (cs.LG) ; 多智能体系统 (cs.MA)
引用方式: arXiv:2306.00324 [cs.LG]
  (或者 arXiv:2306.00324v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2306.00324
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Peizhong Ju [查看电子邮件]
[v1] 星期四, 2023 年 6 月 1 日 03:43:53 UTC (242 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2023-06
切换浏览方式为:
cs
cs.MA

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号