计算机科学 > 机器学习
[提交于 2023年6月1日
]
标题: DSGD-CECA:具有通信最优精确共识算法的去中心化SGD
标题: DSGD-CECA: Decentralized SGD with Communication-Optimal Exact Consensus Algorithm
摘要: 去中心化随机梯度下降(SGD)是一种新兴的神经网络训练方法,它允许多个代理协同且同时地训练一个模型。 而不是使用一个中央参数服务器来收集所有代理的梯度,每个代理都保存一份模型参数的副本,并与少量其他代理进行通信以交换模型更新。 它们的通信由通信拓扑和gossip权重矩阵所控制,促进了模型更新的交换。 最先进的方法使用动态单对等指数-2拓扑,在训练时间速度和可扩展性方面优于环形、网格、环面和超立方体拓扑。 然而,这种方法需要代理数量为2的幂,这在大规模情况下是不现实的。 在本文中,我们消除了这一限制,并提出了\underline{D}去中心化\underline{随机梯度下降}与\underline{C}通信最优\underline{E}精确\underline{C}协商\underline{A}算法(DSGD-CECA),该算法适用于任何数量的代理,同时仍能实现最先进的特性。 特别是,DSGD-CECA每次迭代的通信开销为一个单位,并具有$\tilde{O}(n^3)$的瞬态迭代复杂度。 我们的证明基于对gossip权重矩阵新发现的性质以及将它们与DSGD收敛分析结合的新方法。 数值实验显示了DSGD-CECA的效率。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.