头雁
头雁|2025年07月10日 14:18
原来我以为@0G_labs是个盘子,因为看了官网看了半天不知道所云。今天看到下面推文的这个去中心化训练的这个进展,和我之前分享的几个去中心化训练的技术方向是一样的。只是他们这个模型规模应该是最大了100B,有论文https://arxiv.org/abs/2506.21263没有代码。deepmind的@Ar_Douillard 还转发这个论文。 论文里描述的性能: -可在 1Gbps 慢速网络上训练 107B 个模型 -与 vanilla AllReduce 相比速度提高 357 倍, - 优于 OpenDiLoCo(OOM > 20B)和 CocktailSGD(过度压缩会降低收敛性)。 -在 Qwen1.5-107B 上比 AllReduce 快 357 倍- -在高达 1000 倍的压缩率下仍能保持收敛 去中心化训练这个领域比较大的成果最初是@Ar_Douillard 的deepmind团队的2023年的一篇论文https://arxiv.org/abs/2311.08105,https://arxiv.org/abs/2502.12996 主要都是针对异构低速的互联网GPU参与训练的模型,起初模型规模都比较小。但应该启发了很多人。 比如后面的@PrimeIntellect团队和@gensynai团队(早期是在@polkadot 生态上,不知道后来为什么选择了eth的L2上部署)。他们主要还是针对RL强化学习的异步特性来做模型的后训练。其中 @PrimeIntellect 开源了代码实现 https://arxiv.org/abs/2407.07852 https://www.primeintellect.ai/blog/opendiloco https://github.com/PrimeIntellect-ai/OpenDiLoCo 这个领域还有@tplr_ai(今天才发现的),这个是在Bittensor的子网上做的(之前Bittensor感觉也像盘子,现在来看还是有生态在做东西)https://www.tplr.ai/research https://www.tplr.ai/papers/templar_paper.pdf http://arxiv.org/abs/2505.23725 https://arxiv.org/abs/2505.23725 https://github.com/tplr-ai/CCLoco https://templarresearch.substack.com/p/ccloco-scaling-up-top-k-error-feedback 还有一个团队也在做这个方向 @NousResearch 研究这个方向的团队 可以关注下
曾提及
分享至:

脉络

热门快讯

APP下载

X

Telegram

Facebook

Reddit

复制链接

热门阅读