大模型切片并行:一个值得关注的去中心化算力技术方向

CN
1小时前

周末,一个去中心化GPU算力的项目(https://c0mpute.ai/)突然在网上火了起来。

这是一个既注重隐私,也实现去中心化算力的项目。

在现在的Crypto + AI这个赛道中,被冠以“隐私”和“去中心化算力”的项目不少。在前面的文章中,我就分享过一个去中心化的隐私推理项目venice.ai。

c0mpute和venice这两个项目从字面意义来看都有两个特点:

其一是两者都追求保护用户的隐私;

其二是两者都追求使用去中心化的算力来完成用户发送的(推理)任务。

这两个特点中,第二个特点是两者存在极大差异的点,也是最能充分体现两个项目在技术实现上有着明显区别的地方。

venice用来实现去中心化算力的方式是在网络中寻找一个GPU节点,然后仅在这个节点上完成用户的推理任务。

而c0mpute则不同,它是在网络中寻找多个GPU节点,然后在这些个节点上并行地完成用户的推理任务。

c0mpute是怎么做到这一点的呢?

它创造性地发明了将大语言模型(LLM)的工作流程进行切片的方法,让一个节点只处理整个工作流程中的部分流程,这样多个节点就可以同时处理整个流程中不同的部分流程,从而实现将用户的一个任务分发到多个节点进行并行处理的方式。

为了便于理解,我们用一个极简的比喻来描述venice和c0mpute两者在处理一个任务上的区别。

假设阿里的千问大模型要完成一个推理任务总共需要3个步骤。

当用户发送一个请求后,对于venice而言,它会在网络中选取一个节点,这个节点会从一而终地处理完所有3个步骤,完成用户的任务。

而对于c0mpute而言,它把这3个步骤分别放到三个节点(A、B、C)上。节点A只完成第一步,节点B只完成第二步,节点C只完成第三步。

当c0mpute接到用户的请求后,它自己有一个协调器,把这个请求划分为3个词元(token 1、token 2和token 3)。

然后token 1先放到节点A上处理第一步。

当token 1在节点A上处理完第一步后,token 1被挪到节点B处理第二步。同时token 2开始在节点A上处理第一步。

这时,节点A和节点B这两个节点开始并行处理用户的需求。

当token 1在节点B上处理完第二步后,会被挪到节点C上处理第三步;当token 2在节点A上处理完第一步后,会被挪到节点B上处理第二步;同时token 3开始在节点A上处理第一步。

这时,节点A、B、C同时开始并行处理用户的需求。

依照上面的处理方式,当token 1、2、3分别都由节点A、B、C处理完后,c0mpute再把所有的结果汇总成一个完整的答案发送给用户。

从上面的两种工作方式我们可以看出:

venice是去中心化的选择一个完整的节点处理一个完整的任务;

而c0mpute则通过把大模型的流程进行切片实现了节点的去中心化,使得多个节点可以同时用来并行处理一个完整的任务。

如果大模型被极尽优化地细分切片,则可以调用尽可能多的节点同时并行处理一个任务,从而将任务处理的效率推到极致。

而且,由于一个GPU节点无需跑完一个完整的大模型步骤,而只需要运行部分步骤,所以这个节点对算力的要求就不用太高,理论上小算力(比如游戏级别)的GPU显卡也可以贡献算力,参与到这个网络的协作中来。

c0mpute的技术设想目前已经用个别大模型在若干数量的节点上实验成功了,但它还存在一些问题、还有不少工程技术上的难题有待解决、也还远远达不到上面所描述的那种理想状态。

另外,项目团队目前也非常单薄,似乎只有一个人,所以项目离真正的成熟落地和大规模应用还有一段不小的距离。

但是它给去中心化算力节点运行大模型处理任务开辟了一条理论上可行的新路径,是个很值得关注的发展方向。

回到Crypto + AI的关联,c0mpute和venice类似,其实它们在核心的技术实现上并没有使用加密技术,仅仅只是在支付部分使用了稳定币,并且在融资阶段使用了加密平台进行融资,所以严格意义上来说,c0mpute只是借助了加密技术的金融手段。

但也正是因为加密技术作为金融手段具有传统金融无法比拟的灵活性和便捷性,它才更容易催生和助力这类“无名小卒”的创新和发明,才能让生态时不时看到活力四射的新生命。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接