| AiCoin 实时快讯

ETH

💲2969.48

7.22%

头雁|2025年07月10日 14:18

原来我以为@0G_labs是个盘子，因为看了官网看了半天不知道所云。今天看到下面推文的这个去中心化训练的这个进展，和我之前分享的几个去中心化训练的技术方向是一样的。只是他们这个模型规模应该是最大了100B，有论文https://arxiv.org/abs/2506.21263没有代码。deepmind的@Ar_Douillard 还转发这个论文。论文里描述的性能： -可在 1Gbps 慢速网络上训练 107B 个模型 -与 vanilla AllReduce 相比速度提高 357 倍， - 优于 OpenDiLoCo（OOM > 20B）和 CocktailSGD（过度压缩会降低收敛性）。 -在 Qwen1.5-107B 上比 AllReduce 快 357 倍- -在高达 1000 倍的压缩率下仍能保持收敛去中心化训练这个领域比较大的成果最初是@Ar_Douillard 的deepmind团队的2023年的一篇论文https://arxiv.org/abs/2311.08105，https://arxiv.org/abs/2502.12996 主要都是针对异构低速的互联网GPU参与训练的模型，起初模型规模都比较小。但应该启发了很多人。比如后面的@PrimeIntellect团队和@gensynai团队（早期是在@polkadot 生态上，不知道后来为什么选择了eth的L2上部署）。他们主要还是针对RL强化学习的异步特性来做模型的后训练。其中 @PrimeIntellect 开源了代码实现 https://arxiv.org/abs/2407.07852 https://www.primeintellect.ai/blog/opendiloco https://github.com/PrimeIntellect-ai/OpenDiLoCo 这个领域还有@tplr_ai（今天才发现的），这个是在Bittensor的子网上做的（之前Bittensor感觉也像盘子，现在来看还是有生态在做东西）https://www.tplr.ai/research https://www.tplr.ai/papers/templar_paper.pdf http://arxiv.org/abs/2505.23725 https://arxiv.org/abs/2505.23725 https://github.com/tplr-ai/CCLoco https://templarresearch.substack.com/p/ccloco-scaling-up-top-k-error-feedback 还有一个团队也在做这个方向 @NousResearch 研究这个方向的团队可以关注下

曾提及

APP下载

Windows

Mac

分享至：

Facebook

复制链接

分享至：

脉络

07月02日 02:37【AI行业向本地小模型和边缘计算转变】

06月15日 02:11【谷歌发布最强大的AI：alphaEvolve】

06月15日 02:10【谷歌发布最强大的AI：alphaEvolve】

脉络

热门快讯

热门阅读