
头雁|2025年07月10日 14:18
原来我以为@0G_labs是个盘子,因为看了官网看了半天不知道所云。今天看到下面推文的这个去中心化训练的这个进展,和我之前分享的几个去中心化训练的技术方向是一样的。只是他们这个模型规模应该是最大了100B,有论文https://arxiv.org/abs/2506.21263没有代码。deepmind的@Ar_Douillard 还转发这个论文。
论文里描述的性能:
-可在 1Gbps 慢速网络上训练 107B 个模型
-与 vanilla AllReduce 相比速度提高 357 倍,
- 优于 OpenDiLoCo(OOM > 20B)和 CocktailSGD(过度压缩会降低收敛性)。
-在 Qwen1.5-107B 上比 AllReduce 快 357 倍-
-在高达 1000 倍的压缩率下仍能保持收敛
去中心化训练这个领域比较大的成果最初是@Ar_Douillard 的deepmind团队的2023年的一篇论文https://arxiv.org/abs/2311.08105,https://arxiv.org/abs/2502.12996 主要都是针对异构低速的互联网GPU参与训练的模型,起初模型规模都比较小。但应该启发了很多人。
比如后面的@PrimeIntellect团队和@gensynai团队(早期是在@polkadot 生态上,不知道后来为什么选择了eth的L2上部署)。他们主要还是针对RL强化学习的异步特性来做模型的后训练。其中 @PrimeIntellect 开源了代码实现 https://arxiv.org/abs/2407.07852
https://www.primeintellect.ai/blog/opendiloco
https://github.com/PrimeIntellect-ai/OpenDiLoCo
这个领域还有@tplr_ai(今天才发现的),这个是在Bittensor的子网上做的(之前Bittensor感觉也像盘子,现在来看还是有生态在做东西)https://www.tplr.ai/research
https://www.tplr.ai/papers/templar_paper.pdf
http://arxiv.org/abs/2505.23725
https://arxiv.org/abs/2505.23725
https://github.com/tplr-ai/CCLoco
https://templarresearch.substack.com/p/ccloco-scaling-up-top-k-error-feedback
还有一个团队也在做这个方向 @NousResearch
研究这个方向的团队 可以关注下
分享至:
脉络
热门快讯
APP下载
X
Telegram
复制链接