最近一则关于微软BitNet论文的介绍让我联想起计算机发展史上的一段历史。
微软在2023年和2024年连续发表了关于“BitNet”的论文。在这些论文中,微软提出了一种训练大语言模型(LLM)的新方法。这个新方法去掉了现在训练大语言模型中必须进行的大量昂贵的乘法运算,而以简单的加减法运算取而代之。这个方法极度减少了能耗以及对存储的大量需求。
经过实验检测,这个方法能在现在的基础上提高运行速度2-4倍,甚至能在普通的CPU上运行大语言模型。
而要实现这个方法的关键就在于用三进制(-1,0,1)数取代现行的二进制数(0,1)。
看完这则介绍,我马上在脑海中闪现出历史上被称为“失去的祖先(lost ancestor)”的一个伟大发明。
这个发明就是苏联莫斯科国立大学的科学家尼古拉·布鲁森佐夫(Nikolay Brusentsov)在1958年发明的世界上第一台三进制计算机Setun。
巧的是在Setun设计中,所用到的三进制就是(-1,0,1),和BitNet的进制结构一模一样---这不得不让人怀疑,BitNet的设计很可能就是参考了Setun。
那还是冷战时期,当时的美苏对立已经广泛地波及到从政治、经济到科学的方方面面。但政治的对立还是无法阻挡全球科学家对技术的极大好奇。
苏联科学家这个不同寻常的思路还是引起了西方科技界的极大关注。
这个计算机问世后,西方国家就立刻采购了50台进行实验。
而在苏联国内,这个计算机的实际使用效果也是相当惊人的。
在那个年代苏联轻工业产品的口碑一向都是价高质次。
但这台计算机则表现出了优异的品质,尤其展现出了极高的可靠性。同时代其它的苏联二进制计算机基本上只有60%的时间能够连续运行,但这台计算机的可连续运行时间则高达95% - 98%。
但可惜的是,这样一个本可以改变数字时代发展路径的伟大发明却死在了苏维埃的官僚体制下,主要有两个原因:
- 价格便宜而导致“无利可图”
在苏联的计划经济中,企业进行效益核算的时候,都喜欢价格高、金额大的产品。因为这样的产品在计算GDP的时候更能在数字上体现干部们所做出的成绩。所以苏联时代的干部和工厂普遍喜欢“傻”、“大”、“粗”的产品。
而Setun的成本极低,在当时只需要用27500个晶体管。
这么低成本的产品怎么能体现干部们的成绩?因此干部们对它相当不待见。
- 政治障碍
Setun完全是莫斯科国立大学这位科学家一个极为偶然的发明。它根本不在大学的科研计划中。不在计划中意味着它给当时苏联的无线电技术局(Ministry of Radio Technology)带来了很大的麻烦。局里的领导们对这个意外发明不知道该怎么处理才能符合上方的口味,于是最简单的办法就是彻底禁止这个项目。
- 纷至沓来的订单
实际上,当时来自西方的订单远超50台。但经济利益绝不是第一考虑,因此无线电技术局在出口了50台Setun后,拒绝了后续所有的订单,并在1965年强令禁止了该项目。
一个在市场经济中价低质优明显有市场竞争力的产品在计划经济中反而成了爹不亲、娘不爱的“丑小鸭”,就这样被强行按死了。
回到微软的BitNet论文。
为了继续模拟和进行三进制大模型的训练,微软现在的处理办法是在现有的计算系统上开发一个模拟器,让我们通用的二进制计算机运行一个三进制模拟器,然后再在这个三进制模拟器中运行BitNet。
我把上面这些问题和Gemini进行了一番交流,它的回答和我的预想差不多:
三进制计算机是最理想的运行BitNet系统的平台。
当然,上面这些感想纯粹是我有感而发。
历史就是历史。
但再次回顾这段历史,我更加理解了巴菲特老先生在谈到他对美国股市和美国公司的终极信心时发表的那个基本观点:
只要美国继续坚持法制和市场经济,他就相信美国股市和美国公司一定有光明的未来。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。



