大脑聪明,小模型:西班牙的多元宇宙计算公司获得2.15亿美元融资,以缩小智能手机的人工智能。

CN
Decrypt
关注
1天前

一家西班牙人工智能初创公司刚刚说服投资者投入2.15亿美元,基于一个大胆的声明:他们可以在不影响性能的情况下将大型语言模型缩小95%。

Multiverse Computing的创新依赖于其CompactifAI技术,这是一种压缩方法,借用了量子物理中的数学概念,将人工智能模型缩小到智能手机的大小。

这家位于圣塞巴斯蒂安的公司表示,他们压缩后的Llama-2 7B模型在推理时运行速度提高了25%,同时使用的参数减少了70%,准确率仅下降了2-3%。

如果在大规模上得到验证,这可能解决人工智能面临的巨大问题:模型庞大到需要专门的数据中心才能运行。

“历史上第一次,我们能够分析神经网络的内部工作,消除数十亿个虚假相关性,从而真正优化各种人工智能模型,”Multiverse的首席科学官Román Orús在周四的一篇博客文章中说道。

Bullhound Capital主导了这轮2.15亿美元的B轮融资,得到了HP Tech Ventures和东芝的支持。

压缩背后的物理学

应用量子启发的概念来解决人工智能最紧迫的问题听起来不太可能——但如果研究成立,那就是真实的。

与传统的压缩方法不同,后者只是简单地切割神经元或降低数值精度,CompactifAI使用张量网络——物理学家开发的数学结构,用于跟踪粒子相互作用而不被数据淹没。

这个过程就像是为人工智能模型折纸:权重矩阵被折叠成更小的、相互连接的结构,称为矩阵乘积算子。

系统并不是存储神经元之间的每一个连接,而是保留有意义的相关性,同时丢弃冗余模式,比如重复出现的信息或关系。

Multiverse发现,人工智能模型并不是均匀可压缩的。早期层次表现出脆弱性,而较深层次——最近显示对性能的影响较小——可以承受激进的压缩。

这种选择性的方法使他们在其他方法失败的地方实现了显著的尺寸缩减。

压缩后,模型经历短暂的“修复”——由于参数数量减少,重新训练的时间少于一个周期。该公司声称,这一恢复过程比训练原始模型快50%,因为减少了GPU-CPU的传输负载。

长话短说——根据公司的说法——你从一个模型开始,运行Compactify的魔法,最终得到一个压缩版本,其参数少于50%,推理速度是原来的两倍,成本大幅降低,并且与原始模型同样强大。

在其研究中,团队展示了可以将Llama-2 7B模型的内存需求减少93%,将参数数量减少70%,将训练速度提高50%,将回答(推理)速度提高25%——同时仅损失2-3%的准确率。

传统的缩小方法,如量化(降低精度,例如使用更少的小数位)、剪枝(完全切除不重要的神经元,如修剪树木的枯枝)或蒸馏技术(训练一个较小的模型以模仿较大模型的行为)甚至无法接近这些数字。

Multiverse已经为包括博世和加拿大银行在内的100多家客户提供服务,将其量子启发的算法应用于人工智能之外的能源优化和金融建模。

西班牙政府在3月份共同投资了6700万欧元,使总融资超过2.5亿美元。

目前通过AWS提供Llama和Mistral等开源模型的压缩版本,该公司计划扩展到DeepSeek R1和其他推理模型。

OpenAI或Claude的专有系统显然仍然无法接触,因为它们不提供修改或研究的机会。

该技术的前景不仅限于节省成本。HP Tech Ventures的参与表明对边缘人工智能部署的兴趣——在本地运行复杂模型,而不是依赖云服务器。

“Multiverse的创新方法有潜力为任何规模的公司带来增强性能、个性化、隐私和成本效率的人工智能好处,”HP技术与创新总裁Tuan Tran表示。

因此,如果有一天你发现自己在智能手机上运行DeepSeek R1,可以感谢这些家伙。

编辑:Josh QuittnerSebastian Sinclair

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

欧易返20%,前100送AiCoin保温杯
链接:https://www.okx.com/zh-hans/join/aicoin20
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接