有人测试了一款1997年的处理器,并证明仅需128 MB的内存就足以运行人工智能。

CN
5小时前

  • 关键要点:
  • EXO Labs在一台1997年款的Pentium II上运行了仅具有128 MB RAM的Llama 2模型。
  • BitNet使用-1、0和1的权重来减少人工智能的内存和计算需求。
  • Nvidia时代的人工智能成本面临压力,因为EXO Labs推动以软件为先的效率。

EXO Labs刚刚教会了一台具有128 MB RAM的Pentium II一个新技巧:慢慢但稳妥地运行一个精简的Llama 2模型。团队依靠BitNet,这是一种三元权重的方法,将神经网络的数学简化为-1、0和1,逼迫现代人工智能通过1997年的瓶颈。这个结果并没有 dethrone 你的GPU设备,但它质疑了“更多硅片是唯一出路”的反应。如果软件能够在博物馆等级的硬件上延展如此之远,那么下一波人工智能效率的浪潮可能从更智能的代码开始,而不是更昂贵的芯片。

看到旧硅片做新把戏让人感到一种安静的满足。EXO Labs的研究小组展示了一个现代语言模型在一台1997年的米色PC上运行,该PC由Pentium II和仅128 MB RAM供电。这个模型是Llama 2的一个精简版本,演示挑战了一个简单的假设:更多的人工智能总是需要更多的机器。

秘密武器是一种叫做BitNet的软件结构。BitNet不是高精度数学,而是推动神经网络使用三元权重,特别是−1、0和1。这样可以将计算和内存压力斩减到极致。输出是慢慢到达的,逐字而来,但它确实到达了。关键不在于速度,而在于在极其受限的硬件上可行性。

这里有一个明显的对比。1990年代的思维重视效率,因为每一个周期都很重要。今天的人工智能堆栈则假定有大量的GPU。这个项目在中间相遇,表明仔细的量化、剪枝和数据布局可以抵消粗暴的力量。它还向美国的可持续性辩论致意,在那里,训练和推断的能源足迹正受到政策制定者和云服务买家的更多关注。

对开发者来说,教训很简单:从限制开始。如果一个三元权重网络可以在Pentium II上生存,它当然可以在中档笔记本电脑、边缘网关甚至零售店内的微型服务器上蓬勃发展。这可以扩展设备上的推断,减少延迟,并降低云账单。对于企业买家来说,以软件为先的效率可以转化为更少的GPU和更少的资本支出。

这并不是要取代数据中心的训练或 dethrone Nvidia的高端加速器。演示运行的是一个简化模型,其响应能力无法满足重生产使用的需求。尽管如此,这仍然是一个有用的反例。把精度视为可选,把内存视为稀缺的工具,可以为缺乏集群但仍然希望拥有强大模型的市民科技、课堂和初创企业打开大门。

更重要的收获是文化层面的。人工智能的进步并不仅仅属于那些拥有最多硅片的人。它也属于那些从中榨取最多的人。事实上,软件的精细管理可以和新的芯片布局一样有影响,因为它使模型更接近那些以前无法触及的人员、地点和预算。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接