红杉专访 SemiAnalysis 创始人迪伦:推理将成超越石油的超级市场,算力战争终局在太空

CN
1小时前
坚不可摧的 CUDA 生态护城河效应正在衰减。

作者:红杉资本(Sequoia Capital)

编译:瓜哥 AI 新知

本文内容整理自 SemiAnalysis 创始人 Dylan Patel 在红杉资本(Sequoia Capital)频道的专访,公开发表于 2026年 06月 30 日。

内容提要:迪伦·帕特尔(Dylan Patel)红杉资本专访

  • AI 推理市场的爆发性: AI 推理将成为全球最大的超级市场之一。预计未来不仅将占据全球 GDP 的数个百分点,其市场规模甚至将全面超越石油行业。
  • 协同设计是效率提升的关键: 性能提升绝不能单靠硬件堆砌。模型架构、软件栈(编译器与通信库)与底层硬件(芯片设计)的深度协同优化,才是实现百倍效率飞跃的真正突破口。
  • 电力与数据中心建设: 算力基础设施的终极瓶颈在于能源。到 2030 年,仅 OpenAI与 Anthropic 两家巨头的用电需求就可能突破 100 吉瓦。未来数据中心运营的核心壁垒,将不再是简单的物理规模,而是顶级的电力管理能力(如“削峰填谷”与动态负载分配)。
  • 算力部署的太空转移: 随着地面电力限制与能耗压力的日益逼近极限,预计 20 年内,绝大多数新增的 AI 推理计算必将向太空转移。
  • “CUDA 护城河”的重塑: 坚不可摧的 CUDA 生态护城河效应正在衰减。顶尖的 AI 大模型公司已具备极强的自定义内核开发能力,且模型架构正越来越多地针对特定硬件(如 NVIDIA GPU或 Google TPU)进行差异化的协同设计。
  • 算力紧缺的经济本质: 当前的算力短缺,本质上是模型能力跃升引爆的需求激增。只要 AI 模型创造的正向毛利远超算力租赁成本,这种高杠杆投资在商业逻辑上就是成立且极为稳妥的。
  • 黄仁勋的战略布局: NVIDIA 全力扶持“新锐云”厂商与新兴 AI 实验室,旨在构建一个多极化的计算生态,防止超大规模云服务商(Hyperscalers)通过 TPU、Trainium 等自研芯片垄断市场进而反噬 NVIDIA。
  • 硬件发展的“局部最优解”陷阱: 针对特定任务定制的 ASIC 芯片(如 TPU、Cerebras),虽然在当前任务中表现卓越,但一旦 AI 模型架构发生突变,这些过度优化的硬件极易陷入“局部最优”陷阱。相比之下,通用 GPU 拥有更大的演进与调整空间。

SemiAnalysis 创始人迪伦·帕特尔(Dylan Patel)简介

迪伦·帕特尔(Dylan Patel)是科技界知名研究机构 SemiAnalysis 的创始人兼首席分析师。他以对半导体供应链、人工智能硬件架构及算力经济的深度洞察而闻名业界。

他与团队通过追踪芯片制造工艺(如台积电先进制程)、高性能计算芯片(如 NVIDIA GPU)以及 AI 大模型的算力成本,为投资界与科技企业提供极具参考价值的技术分析。他经常在社交媒体及行业报告中精准预判芯片市场走向,包括对芯片短缺危机、AI 基础设施建设速度的独到解读,使其成为全球 AI 硬件领域最具影响力的评论员之一。他的工作不仅揭示了硬件背后的地缘政治与经济逻辑,更成为外界洞察半导体产业演进的核心窗口。

内容简介

SemiAnalysis 创始人迪伦·帕特尔(Dylan Patel)在访谈中指出,AI 领域最大的飞跃并非源自更快的芯片,而是源于软硬件的协同设计。 将模型、内核与底层芯片进行联合优化,能把这里两倍、那里两倍的微小提升,最终放大为高达 100 倍的惊人效率飞跃。

他深入剖析了为什么 DeepSeek 的专家模型天生契合 NVIDIA的 Hopper 架构(这也是为何 TPU 在运行它时会举步维艰);为什么 OpenAI 偏向稀疏模型,而 Anthropic 偏向密集模型,这两种路线又如何驱使它们走向截然不同的硬件选择;以及为什么传说中坚不可摧的“CUDA 护城河”,其真正的壁垒从来都不在于 CUDA 本身。

迪伦还详细拆解了他主导的 InferenceX 动态基准测试平台——该平台每天在价值超过 5000 万美元的捐赠硬件上运行最新模型,并追踪到了“单位质量成本”每年约 60 倍的断崖式下降。他大胆预言,AI 推理必将成为一个比石油更庞大的超级市场。 他认为,算力短缺之所以将长期存在,是因为 AI 模型扩展实用价值的速度,远远超越了算力增长的步伐。最后,他揭秘了黄仁勋为何要豪掷重金扶持“新锐云”厂商(NeoClouds)——这其实是 NVIDIA 为了主导并构建一个多极化的计算世界所布下的宏大战略。

采访全文实录

迪伦·帕特尔: 我觉得在 SemiAnalysis 工作非常有意思,因为我们有 90 名员工,其中很大一部分是横跨整个供应链的技术工程师,另一大半则是前对冲基金从业者。你会看到他们之间发生这样的争论:有人会说,“哦,那无关紧要。”接着有人反驳,“但是成本呢?”然后工程师又会说,“不不不,这项技术才是最酷的。”你会看到这种自然发生的神仙打架,而我们内部的氛围非常随性。考虑到我曾经当过论坛版主,你可以想象我面临的挑战有多大。

主持人 Sean: 你很乐在其中嘛。

迪伦·帕特尔: 这就好比“和猪摔跤”,因为猪乐在其中。

主持人 Sean: 我们现在在 SemiAnalysis 的办公室,和 Dylan Patel 在一起。我是红杉资本 (Sequoia) 的 Sean,这位是我的合伙人 Sonya Huang。你所取得的成就简直不可思议。五年前,半导体 (Semis) 在西方并不吃香;它们在东方很火热,但西方人似乎已经把它遗忘了。然而你没有忘记。你坚定地长期投入 (went very long),创建了该领域可以说是首屈一指的研究公司——向全世界普及最前沿的技术现状,从极其硬核的技术细节,到供应链,再到宏观格局。

有传言称,SemiAnalysis 最近的营收突破了 1 亿美元。我不知道这个数据有多准确,但不管具体数字是多少,你们都做得太棒了 (crushing it)。毕竟传言的准确性谁也说不准。还有传闻说你们可能会成立一只风险投资基金。我在生态圈里经常听到有人想和 SemiAnalysis 攀上关系。你已经建立起了一个备受信任的品牌,所以无论你做什么,显然都非常奏效。

汽车旅馆里的童年

主持人 Sean: 这显然只是你征程的起点,祝贺你取得的这一切成就。但这一切是如何发生的呢?我的第一个问题关于你的背景:你是怎么一步步走到今天的?

迪伦·帕特尔: 我是在一个小生意家庭长大的。我父母经营着一家汽车旅馆,我们就住在里面。我们还开了一家加油站。我经常开玩笑说,我训练的第一个神经网络 (Neural Network),就是根据顾客走进加油站时的种族和外貌特征进行用户画像 (Profiling),预判他们会买哪种香烟。基本上,香烟都摆在顶层的架子上,我当时太矮了够不着。严格来说,那个年纪卖烟是不合法的,但管他呢,我必须提前把垫脚凳搬到对应的位置。

主持人 Sean: 天哪。我也是在达到法定年龄之前就开始打工了。不过这确实是个很好的经历。你当时没拿工资对吧?

迪伦·帕特尔: 对,我拿不到工资。

主持人 Sean: 家族生意,我也一样。

修理 Xbox 擦出的火花

迪伦·帕特尔: 是的,我们有一家汽车旅馆,街对面就是我们的加油站。有时候,当有人走进来时,我会根据他们的人口统计特征预判他们的需求。如果一位留着卷发的白人老太太走进来,我会把梯子或脚凳移到骆驼牌 (Camel) 香烟那边。根据他们的年龄、职业或种族,我会调整凳子的位置。我开玩笑说这是我训练的第一个神经网络,因为如果等他们开口,我再去搬凳子就太浪费时间了,而提前准备好则能大幅提高效率。无论是薄荷烟、100 毫米长支烟还是细支烟,我都学会了提前预测他们的需求。

我在家族企业中长大,住在汽车旅馆里,但我对科技的兴趣可以追溯到我八岁生日那天。我的生日在五月,而 Xbox 360 刚好在那年四月发布。当我父母问我想要什么生日礼物时,我没有要当下的礼物,而是预支了圣诞礼物——我想要一台 Xbox。我本来觉得他们绝对不可能给我买,但到了圣诞节,我真的收到了。

从互联网论坛到半导体

几个月后,我住在阿拉巴马州的表哥春假来我家玩,他家也是开汽车旅馆的。他的年龄介于我和我哥哥之间。我哥哥更喜欢运动,对 Xbox 不怎么感冒;但我为了在表哥面前耍酷,已经在电话里跟他吹嘘过好多次了。结果,Xbox 坏了——它出现了被称为“死亡红环 (Red Ring of Death)”的硬件缺陷。在尝试修复几次失败后,我最终不得不把它拆开,将温度传感器短接,结果居然修好了。那次经历是我踏入硬件领域的契机,就像打开了潘多拉魔盒。

到 12 岁时,我已经深度沉迷于各种网络论坛,每天不停地阅读和发帖。那时正值 Reddit 开始取代其他平台。我成为了 Android、Apple、Google 以及各大硬件子版块 (Subreddits) 的版主。我持续追踪 Intel、NVIDIA 和 AMD 等公司,观察智能手机如何从简单的设备,进化到在架构上比 PC 还要复杂。在这个过程中,得益于在小生意家庭长大的背景,我始终保持着经济学视角,时刻分析技术背后的市场驱动力。

同样地,虽说互联网上的“技术宅 (Neckbeards)”们都狂热追捧 AMD 的 GPU,我本人也因为性价比买过 AMD 的显卡。但当讨论到技术上谁更胜一筹时,我总是说:“不不不,NVIDIA 更好,因为他们能用更小的芯片获得更高的性能和更优的能效比,而且他们的利润率更高。”我总是滔滔不绝地分析在 GPU 领域,NVIDIA 的利润率是如何碾压 AMD 的。现在回想起来真是挺搞笑的。

主持人 Sean: 当时你才 12 岁?

迪伦·帕特尔: 我 12 岁开始当版主,但这贯穿了我整个青春期、准青春期和高中时代。

主持人 Sean: 你还有其他硬核的爱好吗,还是只有半导体?

迪伦·帕特尔: 我曾一度疯狂沉迷于《星际争霸》(StarCraft)。我当时打到了《星际争霸 2》北美天梯的宗师段位 (Grandmaster)。

主持人 Sonya: 所以你在很多方面都有一种偏执的卓越。

迪伦·帕特尔: 是的,这是一种正向的偏执。

主持人 Sonya: 你的成绩怎么样?

迪伦·帕特尔: 还可以。大部分是 A,但有些课我觉得特别无聊,或者就是单纯不喜欢。比如西班牙语——我的成绩就不太好。但这其实挺扯的,因为我现在的西班牙语说得非常流利。

主持人 Sonya: 也许这就是你当时没拿到好成绩的原因!

迪伦·帕特尔: 平心而论,我是后来才学的西班牙语。所以,我的成绩还过得去,至少能让亚裔父母满意。我比学校里大多数人考得都好,但我绝对不是那种为了拿全 A 而“疯狂内卷 (try-hard maxing)”的人。

从量化分析师到创始人

主持人 Sonya: 好的,看来你彻头彻尾是个在互联网中学习成长的人。这也是你积累这些专业知识的方式。那你是什么时候决定创办 SemiAnalysis 的?创办公司以来最大的惊喜又是什么?

迪伦·帕特尔: 我上大学时拿了几个和半导体毫无关系的学位。后来我在一家小型风险投资机构做了两年的量化分析师 (Quant)。但最终,一系列事件的爆发促使我重新审视自己的人生。我曾通过挖掘市场机会,为公司创造了数百万美元的无风险收益,结果却被别人抢了功劳,本该属于我的奖金也泡汤了。我与前雇主之间彻底失去了信任契约,最终被解雇了。

大约在同一时间,也就是 2020 年初,一直和我们住在一起、与我感情极深的祖母患上了痴呆症,并在一次跌倒后不幸离世。再加上一些个人感情上的问题,我陷入了人生的至暗时刻。紧接着,新冠疫情爆发了。我哥哥邀请我去纳什维尔和他同住,当时大家都以为封锁只会持续几周。这句经典的预测最终被现实打脸,我最终在他家,和当时还是他未婚妻的嫂子一起住了好几个月。

在那段日子里,我感到极其迷茫,又处处受限于他的生活规矩,于是我开始疯狂地在网上发帖和炒股。疫情期间,我通过做多和做空赚了些钱,同时我也在密切追踪当时初现端倪的半导体短缺问题。我在网上的活跃引发了一个转折点——一个在网上和我对线的人对我进行了人肉搜索 (Doxing),公开了我的真实身份。虽然一开始我很害怕,但我直接停更了三周,等我回归时,我换了一种全新的心态。在我 24 岁生日那天,我推出了一个真正的博客——SemiAnalysis。从匿名“口嗨 (Shitposting)”转变为在文章中投入真正高质量、高强度的硬核研究,这让平台获得了极大的关注度,最终也让我的咨询业务迎来了爆发式增长。

流浪式的研究之旅

2020 年,我依然觉得人生处于崩溃边缘,对未来的道路充满迷茫,于是我决定收拾行囊,抛下一切。我买了一辆皮卡,装上帐篷和充气床垫,花了六个月的时间开车环游美国的各大国家公园。工作日,我会找那种能砍价到 30 美元一晚的廉价汽车旅馆,在里面处理 SemiAnalysis 的工作;到了周末,我就去徒步,读专业教科书,听关于 AI 和半导体的有声书。在那六个月极致孤独的旅程中,我坚持写作和发帖,尽管当时所有人都在质问我到底在发什么疯。

主持人 Sean: 星链(Starlink)发布前,或者说星链发展的早期阶段。

迪伦·帕特尔: 在星链之前。那时候大家经常会问:“你到底在做些什么?”我曾花了一年左右的时间在拉美地区旅行——起初是和朋友一起,后来是和前任一起。

从 2021 年底,一直到 2022 年、2023 年以及 2024 年,实际上自 2020 年中期以来,我一直处于四海为家的状态。这段时间里,我满世界飞,去参加全球各地的各种会议;我每年要参加 40 多场大会。无论它涉及供应链的哪个环节,只要看起来有意思,我就会果断前往。

我记得有一次参加会议时,我心想:“天哪,这简直太棒了。”你可以与真正的行业专家面对面交流,而他们也非常乐意与你探讨,因为你能展现出那种由衷的热情。以半导体行业为例,从业者大多是“婴儿潮一代”(Boomer)的老前辈。他们平时很少能见到对这个领域充满热忱的年轻人,所以他们非常乐于倾囊相授。

主持人 Sean: 我必须要问一下,有没有供应链的某个环节,或者某场会议,彻底改变了你对半导体世界的看法?或者说,你当时或现在觉得某个领域被严重低估(Underrated)了?

迪伦·帕特尔: 被低估了吗?我觉得各类展会和会议的风格差异非常大。显然,我最喜欢的会议之一是 NeurIPS(神经信息处理系统大会)。为什么?因为那里聚集了两万名人工智能研究人员,而且大多和我年龄相仿。这非常有趣,他们都是顶尖的 AI 研究者,你不仅能学到很多前沿知识,还有参加不完的派对。

另一方面,你也会遇到那种在日本举办的、某个不起眼的化学会议,现场大概有 300 名日本与会者——外加大约 20 个来自阿斯麦(ASML)的人,20 个来自台积电(TSMC)的人,还有 20 个来自英特尔(Intel)的人。全场就只有这几个人会说英语,其余人只讲日语。即便如此,我依然觉得这些经历非常有趣。我的特长之一就是能与任何背景的人打成一片;我总能找到大家感兴趣的话题,而这些话题通常都与科技相关。

我认为最有趣的往往是那些超大型会议,因为重大的行业变革都发生在那里。然而,真正令人兴奋的细分领域(Niches),则是像 SPIE(国际光学工程学会)这样的圈子。学术界有 IEEE,而 SPIE 则是一个完全不同的生态系统。SPIE 的会议内容极度硬核且深入细节。我第一次参加 SPIE 的高级光刻(Advanced Lithography)或光掩模(PhotoMask)会议时,连 90%的内容都听不懂。后来我查阅了大量资料,也结识了一些人脉,等我第二次去的时候,就能听懂一半了。第三次去,我已经能听懂 75%。即使到现在,我依然无法完全看穿其中的所有门道。

相比之下,如果你参加几次 NeurIPS,就能理解诸如神经符号推理(Neurosymbolic Reasoning)等各种概念,你能很快在脑海中勾勒出整个领域的知识脉络。然而,半导体供应链的某些环节极其晦涩、深奥且偏重硬核技术,以至于你甚至需要花费大量时间,才能看懂每一篇论文里到底在讲什么。你参加会议有几个目的——比如了解最新发表的研究成果——但你真正渴望的,是透彻的理解。

这项研究如何与实际技术相交融?它与当下的行业现状有何不同?这些研究论文根本不会告诉你产业界当下正在发生什么。你只能通过不断提问、积累人脉去学习。当你深入了解供应链后,你会恍然大悟:“噢,原来这家公司是那家公司的供应商!”——尽管这在任何地方都没有公开披露过。就像你会了解到,某种化学品的成本究竟是多少,或者某台设备到底需要消耗多少这种材料。

主持人 Sean: 你经常会听到一些恐怖故事,比如某种化学品突然短缺,结果彻底搞瘫了供应链的某个环节。然后大家才发现,全世界居然只有三家公司在生产这种化学品。

迪伦·帕特尔: 我最喜欢的一个故事是:在那个几乎没人说英语的日本会议上,我结识了一位日本老兄。他用极其蹩脚的英语告诉我他父亲在这个行业工作的故事。在 20 世纪 80 年代,全球唯一一家生产某特定化学品的工厂被烧毁,直接导致内存价格翻了两三倍。当时我心想,哇,这跟今天的情况……

主持人 Sonya: 也没多大区别吧。

迪伦·帕特尔: 完全如出一辙。

InferenceX 与基准测试 (InferenceX and Benchmarking)

主持人 Sonya: AI 推理(Inference)将会成为地球上、甚至是全宇宙最大的市场。你同意还是反对?

迪伦·帕特尔: 显而易见,Token(令牌)的消耗量将创造最大的市场,而由此衍生的价值也将是不可估量的。我认为,Token 经济学(Tokenomics)以及 AI 的普及应用,是当下正在发生的最重要的变革。无论开源模型还是闭源模型,AI 推理必将成为全球最大的市场之一。它的规模将远超石油,远超其他许多传统行业——未来,AI 推理甚至将占据全球 GDP 的数个百分点。

主持人 Sonya: 我认为你在 InferenceX 上所做的工作,已经树立了行业标准。能不能简单谈谈你创立它的初衷,它的核心功能是什么,以及人们在推理性能的基准测试(Benchmarking)上通常存在哪些误解?

迪伦·帕特尔: 好的,回溯一下,在 SemiAnalysis,我们开展了大量的工作。其中很大一部分是为机构客户提供研究服务,以及我们的订阅类产品;但也有很多时候,我们纯粹是觉得:“嘿,如果能把这件事搞清楚一定很酷。”于是我们就去寻找解决问题的方法,并将研究结果公之于众,这种模式的影响力也在不断扩大。后来,我们将这种方法应用到了大规模的 GPU 基准测试,以及模型训练和推理性能的测试上。

最终我们意识到,传统的推理基准测试仅仅是一个“特定时间点的快照”(Point-in-time Snapshot)。你进行测试,处理数据需要时间,而等你把结果发布出来时,它已经变得迟缓、晦涩且彻底过时了,因为模型无时无刻不在迭代。感觉每周都有新模型问世——无论是中国的大模型,还是像今天的 Mythos 5 或 Fable。新模型层出不穷。在软件层面上,PyTorch、vLLM、SGLang 等框架,以及新的驱动程序和更新也在不断推送;事实上,大部分软件库的更新频率高达每周两次。

由于软件在不断更新,硬件性能也在持续演进。新的推理优化方案定期发布,这代表着一系列持续不断的突破,它们在不断推高效率的同时大幅拉低成本。这就是为什么在短短一年内,同等质量的模型推理成本暴降了约 60 倍的原因。这简直令人难以置信。 为了保持领先,你不能再依赖那种“刻舟求剑”式的静态测试;你需要的是“鲜活且会呼吸”的基准测试——它们必须时刻运行在最新的硬件和最新的模型上。

为了实现这一目标,我们启动了一个项目,并赢得了整个生态系统的大力支持。这得益于我们在业内积累的声望,从而能够说服 CoreWeave、Crusoe、Nebius、Oracle、Microsoft、Amazon、Google 和 OpenAI 为我们提供算力。我们有幸与引领开源浪潮的私营企业——如 SGLang、vLLM、RadixArc 和 Infraact——展开深度合作。在将 TPU 和 Trainium 芯片整合到我们的基础设施时,我们还得到了 NVIDIA、AMD、Google 和 Amazon 的鼎力相助。

如今,所有的这些机构都在与我们协同并进。我们获得了价值超过 5000 万美元的硬件捐赠,一旦我们将 TPU 和 Trainium 投入运行,这一数字将突破 1 亿美元。我们每天都在约 15 种不同的芯片上,使用最前沿的模型进行基准测试——包括来自月之暗面(Moonshot)、阿里巴巴以及中国各大顶尖实验室的最优模型,还有诸如 GPT-OSS、Nemotron 等美国最顶级的开源模型。我们在专用的推理测试服务器上,以全自动化的方式运行这些测试,全面扫视海量的参数配置与优化方案。

最终的结果是,我们所有的发现和配置都是完全公开的,这使我们能够精准绘制出“帕累托最优曲线”(Pareto Optimal Curve)。这一点至关重要,因为当人们在比较推理性能时,往往会拿别人未优化的“次优数据”,来和自己的“最优数据”进行田忌赛马般的对比。而我们的项目,则确保了绝对透明、公平的“同量级(Apples-to-apples)”对标。

举个例子,如果让我和一位职业赛车手同时开保时捷,显然我会开得慢得多。推理基准测试也是同样的道理。因此我们的做法是,针对“交互响应速度”(即系统回应用户的快慢)与“批处理大小”(即系统能同时服务多少用户)构成的性能曲线上的每一个最优平衡点,我们都创建了开源的部署容器(Containers)。现在,任何想要获取极致性能的人,只需访问 InferenceX,下载并运行该模型的最优配置即可。他们甚至可以设置每天自动拉取该模型的最新、最优配置参数,从而让自己的 AI 推理性能永远保持在近乎巅峰的状态。

主持人 Sonya: 在你看来,那条吞吐量与交互性曲线(Throughput-Interactivity Curve)是最重要的一条曲线吗?

迪伦·帕特尔: 我认为,无论是硬件、基础设施、模型还是应用层,万物皆处于这条曲线的下游。

关键在于:这项任务是否需要极速的响应、超低的延迟,而且可以不计成本?如果是,我会将批处理大小(Batch Size)设得极小,并重度依赖推测解码(Speculative Decoding)或多词元预测(Multi-token Prediction)等技术——这方面有太多可用的方案了。

或者,如果任务是批量处理海量文档,而我根本不在乎延迟?那我就不会使用这些技术,因为它们牺牲了成本效率来换取单个用户的速度。此时我只想塞进尽可能多的用户请求,哪怕文档需要整整一晚才能处理完,我也无所谓。

目前,我们对待 AI 基础设施的方式是“一刀切”。但随着时间的推移,我们将进入这样一个阶段:批处理工作负载(Batch Workloads)与即时响应需求将泾渭分明,整条曲线的每一个点对用户而言都至关重要。这一点在 Anthropic 身上已经初见端倪,他们的“Claude 快速模式”比普通模式昂贵得多。OpenAI 的优先级队列系统也是同理。

主持人 Sonya: 抱歉,问个外行问题,成本是如何体现在这张图表上的?

迪伦·帕特尔: 举个假设的例子:如果我的批处理大小是 100,且每个用户每秒能处理 10 个词元(Token),那么单台计算设备的总吞吐量就是每秒 1,000个 Token。这是曲线的一端:对单用户极慢,每秒只有 10个 Token。曲线的另一端可能是总吞吐量只有每秒 500个 Token,但我只能服务一个用户;或者单用户每秒 250个 Token。

中间存在一些更符合帕累托最优(Pareto-optimal)的点。实际上,普通用户通常需要每秒 50到 100个 Token 的响应速度,这取决于我能将多少个用户打包在一起批处理。所以这条曲线的逻辑是:总吞吐量是每秒 1,000个 Token 还是 250个 Token,完全取决于我批处理的用户数量,这中间形成了一条过渡曲线。

最终,有些工作负载确实需要追求 4 倍的成本下降,因为同样的硬件单元可以实现 1,000与 250 的性能差异。另一方面,有些用户愿意多付 4 倍的价格,因为他们不在乎成本,只在乎时间——可能是因为使用这些 Token 的人本身时间成本极高,或者他们所处的反馈循环(Feedback Loop)价值极大。

主持人 Sean: 如果让你预测一下,你可以设定一个时间框架,10 年或 15 年,你认为有多大比例的推理计算(Inference Compute)会发生在太空?可以是 0%、50%,甚至 99%。这是一个很难的问题,你可以选择你认为合适的时间框架。

迪伦·帕特尔: 我认为非共识的观点,或者说“看衰 SpaceX”的观点是(顺便说一下,我很喜欢 SpaceX,如果他们上市我绝对会买股票):太空数据中心在未来三到五年内无关紧要。

话虽如此,但我相信在 20 年后,绝大多数的算力将部署在太空。这背后的核心博弈在于:时间线、陆地发电成本,以及我们在地球上实际能够产生多少能源的物理极限。

显然,关于推理算力的未来走向——具体会有多少吉瓦(Gigawatts)甚至太瓦(Terawatts)的电力投入其中——在我个人看来,它正沿着一条极其疯狂的指数曲线狂飙。

主持人 Sonya: 你的预测是多少?会有多少吉瓦?

迪伦·帕特尔: 我认为到 2030 年,仅仅 OpenAI和 Anthropic 两家的用电量合计就会超过 100 吉瓦。然后再算上 Meta、谷歌等等。未来将有海量的算力专门用于推理。到 2040 年,这个数字将达到太瓦级别。我们将迎来生产力曲线的极致攀升,推理部署的规模将大得惊人。因此,如果放眼 2040 年,我认为超过一半的增量算力将部署在太空。但如果看 2030 年,我认为这个比例不到 1%。

主持人 Sonya: 你认为“单位瓦特智能(Intelligence per watt)”一直在提升吗?目前我们的人工智能与人类生物大脑的单位瓦特智能相比,似乎仍存在巨大的鸿沟。你认为我们能跨越这道鸿沟吗?如果能,这种提升将从何而来?

迪伦·帕特尔: 这往往也取决于你具体在做什么任务。比如在做数学计算时,TI-84 计算器的单位瓦特智能远超人类。那可是 30 年前的技术了。所以,这显然是一种相对呆板的、泛化意义上的智能。

我们 InferenceX 的一个核心工作,就是衡量所有这些硬件的功耗与成本。我们不仅提供吞吐量与交互性的对比曲线,还提供成本与交互性、功耗与交互性的对比曲线。关于单位瓦特智能的提升,我曾提到过,在相同的基准测试水平下,成本已经下降了 60 倍。我们在单位瓦特智能上也看到了类似的结果,虽然没到 60 倍,但也接近 40 倍了。其中一些效率提升并非源自功耗本身的改善,但过去几年里,单位瓦特智能的年增长率极其惊人,我预计这种趋势还将延续。

至于我们与人类大脑的对比,中间仍隔着好几个数量级。但幸运的是,这其实无关紧要。我们可以将海量的电力灌注给计算机,而且为计算机供电,远比为人类大脑供电容易得多——因为人类不仅会生病,还会受限于饮食偏好,更需要每天睡觉休息。

主持人 Sean: 完全同意。关于这个大主题,我再问最后一个问题。

在我看来,无论是单位瓦特智能还是单位美元智能(Intelligence per dollar)等指标,其提升主要源于三个层面的输入:一是硬件层面的突破,即硬件本身更高效;二是底层系统的优化,比如内核级(Kernel-level)的改进或矩阵乘法库的优化;三是顶层模型级或算法级的迭代。

我觉得在过去三年里,绝大部分的性能增益都来自硬件层,一定程度上也有模型层的功劳。你同意吗?你认为未来也会是这种格局,还是说在内核系统层面上,依然有巨大的潜力可挖?

迪伦·帕特尔: Sean,我完全不同意你的看法。

主持人 Sean: 这正是我问这个问题的原因。

迪伦·帕特尔: 好吧,确实可以将其视为三个不同的层级来看待。从这个角度来说,从 Hopper 架构到 Blackwell 架构(这是过去三年我们在硬件上仅有的换代),DeepSeek 在这些硬件上的性能大约提升了 30 倍。在最极致的优化部署下——这在 InferenceX 上可以查到——提升幅度约为 30 倍。

然而,在过去三年里,我们在单位瓦特智能上取得的飞跃远超于此。其中极大的增益其实来自于模型层。回溯三年前,当时的标杆是 GPT-4;而现在,像 Qwen 这样的小模型,总参数量仅为 270 亿,激活参数区区 20 亿,但其表现却远胜于昔日的巨头。

因此,模型层迎来了巨大的跨越,硬件层也有相当可观的进步,但真正主导未来的,是软硬协同设计层(Co-design Layer)。如果你去剖析这些模型的架构——以目前最公开透明、最具知名度的 DeepSeek 为例——你会发现,那才是真正孕育出时代性突破的地方。

主持人 Sean: DeepSeek 通过协同优化 (co-optimization) 或内核级内存优化获得了巨大的效率提升。

迪伦·帕特尔: 没错,我认为这当然离不开内核 (kernels) 层面的优化,但更核心的其实在于针对芯片构建硬件架构。如果你观察 DeepSeek V3 中所有专家模型 (experts) 的张量形状 (shapes),会发现它们都是针对 Hopper 架构优化的;同样,如果你看 V4 版本,它们则是针对 Blackwell 和华为 (Huawei) 的芯片进行了优化。

有趣的是,尽管 TPU 客观上是非常出色的芯片——支撑了整个 DeepMind 的运作并包揽了 Anthropic 的预训练任务——但 TPU 运行 DeepSeek 时却很吃力。然而,在运行其他那些在 NVIDIA 硬件上表现不佳的模型时,TPU 却极其出色。

这涉及到极深度的优化,无论是张量形状、网络 I/O 模式、集合通信 (collectives) 的管理,还是围绕注意力机制算术强度 (arithmetic intensity) 的算子处理方式。所有这些因素都在模型、硬件以及介于两者之间的基础设施软件之间进行了协同优化。归根结底,你很难将这些要素完全剥离开来。

主持人 Sean: 你是不是认为,过去几年中国在这方面做得比西方好得多?而且 DeepSeek 是最早真正做到这一点的模型之一。

迪伦·帕特尔: 我倒不一定这么认为。我觉得更多是因为西方公司不对外透露他们的技术细节。比如 OpenAI 就没有告诉大家 GPT-4o 的稀疏程度有多高、张量形状大小如何等等。但 GPT-4o 的规模与 DeepSeek V3 大致相当,甚至还要略小一点。而且如果我没记错的话,4o 发布的时间要早得多。

主持人 Sean: 所以你的观点是,这三者的创新一直在以大致相同的速度同步发生,而最大的增益来自于它们的协同优化 (co-optimization)?

迪伦·帕特尔: 可以这么说,我认为模型层的增益确实比软件基础设施层或硬件层要大。但每一层都在发生创新,而最极致的飞跃——也是顶尖实验室的迷人之处——就在于将这三者进行完美的协同优化。

这正是 Anthropic 的做法。尽管他们使用许多不同类型的硬件,但他们很少在 TPU 上做推理,主要用其进行训练。他们大量的推理任务是在 Trainium 和 GPU 上完成的。虽然 GPU 更像是一个“多面手 (jack-of-all-trades)”,但他们已经对自身的硬件、模型以及所有相关环节进行了优化,以确保其高效运转。

相比之下,OpenAI 之前的模型更多是针对 Hopper 优化的,而现在则更多针对 Blackwell 进行了优化。随着时间推移,这些实验室——谷歌也不例外——都在进行相应的优化。例如,Gemini 2 真正针对 TPU V6E 进行了优化,或许 Gemini 3 也是,而即将推出的下一代 Gemini 则完全针对 TPUv7 进行了优化。很多这类工作都是协同优化的结果,当你试图把这些模型放到旧硬件上运行时,性能表现往往大打折扣。

我认为这种协同优化——通常被称为软硬协同设计 (software-hardware co-design)——是最关键的因素。这也是我日常工作中最令人兴奋的部分。你可以只盯着某一层,看到那里涌现的诸多创新,但真正的突破性创新,往往发生在跨越多个层级进行协同优化与设计的那一刻。

与其指望这里提升 2 倍、那里提升 2 倍、其他地方再提升 2 倍——乘起来也就 8 倍的增长——你完全可以通过打通三个层级的协同优化,实现 100 倍的增益。这正是你在顶尖实验室看到的景象,也是 NVIDIA 这样的公司正在做的事情——他们从模型层一直向下游协同优化到了底层硅片。同样,你在台积电 (TSMC) 也能看到这一点,他们不仅在优化制造工艺,更是将组件、耗材、工具等各个环节,一直向上游延伸至客户提供的设计方案,进行全链条的协同优化。真正发挥决定性作用的,正是这种跨越多个抽象栈 (abstraction stack) 层级的协同优化。

主持人 Sean: 不过在这种优化过程中,总会有某些地方出现瓶颈,它们就像是掉队了,需要被强行拉上来。还会出现一些用来填补漏洞的创可贴式的临时方案 (band-aids)。如果你要预测一下,无论是在技术栈的哪一层,无论发生在哪,你认为明年你会最密切追踪的瓶颈是什么?不一定非要是供应链或规模法则 (Scaling Law) 方面,而是实际的技术挑战——当然也可以是供应链——到底是什么?是内存的改进吗?还是单纯的扩展 (scaling) 问题?

迪伦·帕特尔: 内存是一个大家都老生常谈的显学,但我不想从供应链的角度谈,我想从技术角度来剖析。内存容量和带宽的提升一直非常缓慢。NAND 存储单元大约是 25 年前发明的,而 DRAM 单元更是 40 年前发明的。在底层存储单元结构上,至今没有出现过什么重大突破。

虽然也有一些即将问世的技术可能会带来巨大的创新。但在过去五年里,我们真正做的,只不过是把 HBM (高带宽内存)堆叠得更高、速度做得更快而已。不过,未来几年会有新的创新出现:你不再是将 HBM 与芯片分开堆叠,而是直接将内存堆叠在芯片上,这将让带宽实现爆炸式增长。这个领域出现了一些有趣的公司,也在推进一些引人注目的概念验证 (POC)。我认为内存带宽是当前最大的挑战之一。

另一个问题与硅片的发展史有关。基本上,在过去至少二十年里,无论是数据中心还是桌面端芯片,你只需看一眼就能轻易预测它的功耗:峰值大约是每平方毫米 1 瓦。所以,如果一块芯片的面积是 100 平方毫米,通常其功耗就在 100 瓦左右甚至更低。即使你去观察最新的 NVIDIA 芯片或最新的 TPU,它们仍然保持在每平方毫米 1 瓦的区间内。

因此,芯片功耗现在已经达到了 1400 瓦。NVIDIA 的下一代产品,比如 Rubin,将会达到 2000 瓦。如果再往后看 Rubin Ultra,大概会达到 4000 瓦。虽然他们目前只是单纯在增加硅片的面积,但令人兴奋的是,我们终于开始研发新的技术,能够真正做到……

大幅提升注入硅片的功率,使其远超每平方毫米 1 瓦的限制。这顿时间意味着你需要的硅片面积变小了。显然,它会在更高功率下运行,某些情况下的能效也会降低,但你减少了硅片用量,并且能够……

主持人 Sonya: 散热问题会很棘手吧。

迪伦·帕特尔: 没错,散热问题、电气干扰以及各种其他并发症往往会随之而来。这也是为什么它是一个极其困难的工程问题,也是为什么我们长期停滞在每平方毫米 1 瓦左右的原因。然而,令人兴奋的是,整个行业正在积极努力去打破这一现状。

我觉得去看看供应链的其他环节也很有趣。人们常说能源是个大难题,我们正面临能源瓶颈。这话不假,但实际上你能想到一些非常简单的解决方案。比如,想想美国有能力制造出的那数百万台卡车柴油发动机。

你可以非常轻松地在装配线上将它们改装成使用天然气,然后以反向驱动 (back-driving) 的配置连接到电机上。在这种设置下,电机的作用是发电,而不是驱动车轮旋转。通过将天然气注入这些美国能够实现百万级量产的发动机中,你就获得了一条切实可行的发电途径。

也许有人会反驳说,这听起来维护成本太高了,因为一个数据中心可能需要数百台这样的设备。但实际上,你完全可以雇佣汽修店的机械师,让他们跑来跑去修理这些卡车发动机就行了。我不是说这事儿轻而易举——我本人肯定是干不来的——但我认为你指出的观点非常在理。

主持人 Sean: 这一点说得非常好。因为在过去二三十年里,西方并没有真正重视半导体,甚至整个硬件领域,导致我们缺乏创新,也没有最顶尖的人才去思考如何……

迪伦·帕特尔: 改进这些硬件。既然你可以去写代码、卖广告赚钱,为什么还要去搞硬件呢?确实如此。

主持人 Sonya: 好的,我非常想问一个问题:NVIDIA 对阵 TPU,你怎么看?

迪伦·帕特尔: 我觉得大家似乎都想在两者之间分个高下,但实际上这完全取决于具体的应用场景。展望两年后,Google 通过其供应链将生产超过 1000 万颗 TPU,而 NVIDIA 将生产数千万颗 GPU,两者的产值都将达到千亿美元级别。我的意思是,Google 每年创造的 TPU 产值将超过 1000 亿美元,而 NVIDIA 将达到 5000 亿美元甚至更多。我并不是在做一个具体的……

主持人 Sean: 这不是在做具体的营收预测,只是一个思想实验。我们的研究里有相关数据。当然,我们也在为 SpaceX 的投资做准备。

迪伦·帕特尔: 你们是 SpaceX 的大股东吗?原来如此,那讲得通了。(对方答:我们很幸运能成为他们的大股东。)太棒了,太棒了。

回到 Google TPU 和 NVIDIA GPU 的对比,双方都有各自极为突出的优势。NVIDIA 会强调他们拥有卓越的交换机技术,且产品具备通用性;而 TPU 的阵营则认为他们针对性更强、能效更高,且网络架构更适合某些特定类型的模型。

双方在这些观点上各有千秋。我可以一本正经地跟你论证 GPU 比 TPU 好,也可以反过来论证 TPU 比 GPU 强,但归根结底,胜负取决于软硬件的协同设计 (Hardware-Software Co-design)。

实际上,考虑到 OpenAI 模型的发展方向,如果他们选择使用 TPU,可能是一场灾难;反之,按照 Anthropic 和 Google 模型的演进路径,用 GPU 训练同样会是个糟糕的决定。

稀疏模型与稠密模型

主持人 Sonya: 怎么说?它们之间的根本差异到底在哪里?

迪伦·帕特尔: 差异体现在很多方面。举个最简单的例子,矩阵乘法单元 (Matrix Multiply Unit) 的尺寸就是不同的。这就决定了你所进行的矩阵乘法的形态、使用的注意力机制 (Attention Mechanism)、注意力机制的结构,以及专家模型 (Experts) 的架构方式。

主持人 Sonya: 所以你认为 OpenAI 和 Anthropic 的模型架构正在走向截然不同的方向?

互联方式决定架构

迪伦·帕特尔: 事实上,我认为它们的模型架构有着天壤之别。OpenAI 的模型要稀疏 (Sparse) 得多,这有其独特优势;而 Anthropic 的模型虽然也是稀疏的,但整体上更偏向稠密 (Dense),这也带来了不同的效益。

此外还有许多其他因素,例如网络拓扑结构 (Network Topology)。NVIDIA 将所有的芯片连接到 NVLink 交换机上;而 Google 没有交换机,他们的做法是利用芯片间互连技术 (Inter-Chip Interconnect, ICI),以超高带宽连接 8000 颗芯片,但代价是数据必须经过其他芯片中转,因为中间没有交换机。

CUDA 护城河正在发生变迁

这些取舍各有优劣,并会反过来影响模型架构。我们不能简单地断言谁优谁劣,因为当硬件的影响力已经延伸到模型层时,你怎么能脱离模型去孤立地评判硬件的好坏呢?

主持人 Sonya: 但长期以来,我一直认为 NVIDIA 的可编程性,以及 CUDA 本身,构成了极深的护城河。不过在过去三到六个月里,至少在我的认知中,这种叙事已经发生了改变。

模型公司似乎不再那么在意硬件壁垒了;如果为了适配另一款芯片需要编写自定义内核 (Custom Kernels),那就写吧。如果有必要,我们愿意同时适配四五种芯片。实际上,Claude 和 Codex 在执行这类优化工作上已经表现得非常出色。

模型公司并不是成千上万家,不需要每家都有独特的编程能力;顶多也就几十家。因此,“有成千上万家大客户都需要 CUDA 兼容性”这个根本前提,似乎正在发生动摇。

生态系统与协同设计

迪伦·帕特尔: 确实,CUDA 的护城河与软件生态在某种程度上已经解绑了,因为现在的模型本身就非常擅长写代码,所有的软件最终都会被商品化 (Commoditized)。但我认为这里面也涉及一定程度的开源因素。人们口中的“CUDA 护城河”其实与 CUDA 本身关系不大;真正的关键在于,DeepSeek、Kimi (Moonshot AI)、智谱 AI (Zhipu AI)、阿里、腾讯以及最近发布了优秀模型的小米——这些公司都在针对 GPU 进行模型的协同设计 (Co-design)。因此,这些模型如果在 TPU 上运行,效果往往大打折扣。

Google 必须建立自己的开源模型生态,比如 Gemma 模型。在这种情况下,护城河其实不是 CUDA,而是下游产品更适配 NVIDIA 这一既定事实。当这些公司开源他们的模型时,下游用户——比如推理 API 提供商,或是试图为商业场景定制强化学习 (RL) 模型的公司——都会面临一个现实:他们必须使用 NVIDIA,因为整个生态都在用 NVIDIA。即使他们不在乎编写 CUDA 内核,模型特定的架构配置(例如专家维度或隐藏维度)也决定了它们在 NVIDIA GPU 上的表现就是优于 TPU,反之亦然。

如果 Google 开源了性能顶尖的模型,同样的逻辑依然适用:人们拿到模型后会发现,“哦,这些在 NVIDIA GPU 上跑得不好,我应该直接去租或买 TPU 来运行。”

对于小型团队来说,自然倾向于使用 vLLM、SGLang 和 PyTorch 等现成的开源软件。但顶级实验室并不一定要依赖这些。OpenAI 很早就对 PyTorch 进行了分支 (Fork),Anthropic 等巨头也不太依赖现成的开源实现,他们已经构建或分支出了自己的系统。因此,他们不再受限于开源技术栈。相反,他们会挑选市面上最好的硬件,从底层开始对模型和基础设施软件进行协同设计,以确保实现成本最优的解决方案。

Cerebras 的速度与局限

“反正我会让人工智能来帮我写所有的软件代码。” 你怎么看 Cerebras?我认为 Cerebras 是一家极具创新力的公司。在市场的某些细分领域,他们做得非常出色,速度极快。我认为推理 (Inference) 是一个巨大的市场。在 SemiAnalysis,我们几乎只使用极速模式。

主持人 Sonya: 顺便说一句,我非常欣赏你在成本核算上的严谨态度。我不知道那只是你做的一个案例展示,还是你一贯的做法,但你对每项任务中投入资金及其投资回报率 (ROI) 的精算分析,真的是非常精彩的洞察。

迪伦·帕特尔: “是的,我们在追踪上做得非常细致。谢谢。那是我们写的一篇关于‘暗黑 GDP’(Dark GDP) 的文章。我们每天都会追踪所有人的 Token 支出。如果某人的使用量突然飙升,我会去问:‘你拿它干嘛了?’听完解释后,我会觉得:‘好的,谢谢你告诉我,看来这钱花得值。’很好,然后我继续忙我的事情。”

“我认为‘极速模式’(Fast Mode) 对高端任务显然价值巨大。我能看到在许多不同的应用场景中,极速生成 Token 绝对物有所值。但硬币也有反面——在大量场景中,其实并不需要这么快的生成速度;因此,市场不会为此买单,用户会转而使用 GPU 和 TPU。”

“Cerebras 面临的最大风险在于,我倾向于认为人们只会在最顶级的模型上开启‘极速模式’,而较小的模型则未必需要。当然,在金融市场,或者像 Jane Street(简街资本)那样的高频、中频交易场景下,我这个判断可能是错的。”

“但归根结底,在像 Cerebras 或 Groq 这样基于静态随机存取存储器 (SRAM) 的芯片上,运行具有超长上下文的超大模型是非常困难的。那么问题来了,一旦模型变得太大怎么办?如果 OpenAI 的模型不是千亿或小几万亿参数级别,而是超过 10 万亿参数,我认为 Cerebras 根本装不下。如果它不仅装不下模型,还无法支持长上下文(比如一百万个 Token),那就很难证明使用它的合理性了。”

“到目前为止,我们看到各大 AI 实验室绝大部分的收入和使用量,依然集中在他们最顶级的模型上。哪怕模型涨价,这个趋势也没有改变。数据显示,尽管 Flash 模型今天才刚刚发布,但已有数量惊人的用户切换到了 Flash 以及 Opus 这种更高阶的模型上——即便它们的成本要高昂得多。”

主持人 Sonya: “那是按美元金额计算的体量吗?”

迪伦·帕特尔: “完全是按美元金额计算的体量,而不是按 Token 计算的。不过话说回来,谁在乎 Token 的体量呢?关键在于美元收入,很合理,对吧?我才不在乎到底卖出了 20 万辆 Mini Cooper 还是丰田凯美瑞 (Toyota Camry),如果福特 F-150 的平均售价 (ASP) 是它们的 5 倍,哪怕销量只有一半也无所谓。所以,美国最赚钱的市场是皮卡 (Pickup Trucks),对吧?虽然大半是玩笑话,但道理就是这样。”

主持人 Sean: “我确实认为这是你做得最出色、也是让你脱颖而出的一点:除了钻研技术,你还极其关注背后的经济账。极少有人能将这两者完美融合。”

迪伦·帕特尔: “是的,谢谢。我觉得在 SemiAnalysis 内部工作极其有趣。我们有 90 名员工,其中很大一部分是贯穿整个供应链的技术专家和工程师,另一大半则是曾在对冲基金工作的人。你经常能看到他们争论不休。有人会说‘那个不重要’,另一拨人立马反驳‘但是要考虑成本啊!’,接着工程师又会插嘴‘不不不,这项技术才是最接近落地的’。你会看到这些观点自然而然地碰撞交锋,而我们的工作氛围又很随意。既然我以前当过论坛版主,你大概能想象我会怎么应对……”

主持人 Sean: “你完全乐在其中。”

迪伦·帕特尔: “你永远不要和猪摔跤,因为因为猪会乐在其中”

ROI 辩论与犀利观点

主持人 Sean: 完全正确。借着这个话题,在进入下一个问题前我想问,在半导体领域有没有什么话题会触及你的‘雷区’?比如某种观点已经成了一个烂梗,一听到你就会觉得这人脑子进水了?比如‘内存就是瓶颈’这种话。”

迪伦·帕特尔: “我的意思是,内存确实是个瓶颈。但抛开这个不谈,真正让我血压飙升的,是那些声称‘AI 没有投资回报率 (ROI)’的人。这让我非常愤怒。人们总是质疑‘ROI 在哪里?’,或者干脆全盘否定模型的进步。有人声称模型并没有变得更好,说它们没有推理能力,不会思考,甚至马上就要走进死胡同、陷入停滞。但坦白讲,一直以来,AI 模型能力的发展轨迹始终是一路向右上扬的。 他们非要指着某个没有提升的基准测试 (Benchmark) 说事,但这仅仅是因为那个测试的分数早就触及了 90% 的天花板。当你去看那些全新的基准测试时,分数完全是在直线飙升。”

“我认为真正的挑战在于,半导体技术极其复杂,我不怪大家不了解它。就连我每天都在学习半导体供应链的新知识,而我研究这一行可以说是足足有 18 年了——从我 12 岁当论坛版主时就开始了。它融入了我的呼吸和生活,是我唯一关心的事物。然而,这个产业的抽象堆栈 (Abstraction Stack) 里有着太多的层级。就在昨天,我才了解到一种销售额高达 1 亿美元的新型化学品,我当时震惊了;我以前甚至不知道它的存在,更不知道它是用来做什么工艺的。”

“结果证明,这种化学品至关重要——每块芯片都离不开它。这提醒了我,芯片制造涉及到成千上万个工艺步骤。人们可能会抬杠说:‘哦,你懂半导体?那你把每一个工艺步骤都列出来看看’,但这根本不可能。我发现最滑稽的是,有些人明明掌握了所有的事实,却依然推导出了完全错误的结论。在工作中,我们无时无刻不在面对这种情况。我的态度是,遇到这种事不要生气,而是要尽快找出这些谬误并迅速纠正它们。”

十年技术押注

主持人 Sean: “我觉得整个行业目前的状态是,AI 显然是眼下世界上最重要的事情,同时也存在太多短期的瓶颈。我们已经聊了很多短期内的话题。那么把时间线拉长,比如站在 10 年的维度上看,有什么长远发展是你真正感到兴奋的?我们提到过轨道数据中心 (Orbital Data Centers),那你觉得像硅光子学 (Silicon Photonics) 这样的技术,在 10 年的时间框架内是被低估了还是高估了?还有没有其他你看好的 10 年期技术?”

迪伦·帕特尔: “是的,我认为在 10 年的维度里,太空领域简直疯狂且酷毙了。对于太空数据中心、小行星采矿这类事物,我对 SpaceX 的愿景感到无比兴奋,对吧?重申一下,在大家冲进去之前先声明,这绝对不是投资建议。而在半导体方面,只要某项技术的突破提前或推迟一年,就会引发巨大的市场波动和行业剧变。就拿共封装光学 (CPO, Co-Packaged Optics) 来说,所有人都知道它肯定会在本年代末落地,目前的争论无非是具体在 2027、2028、2029 还是 2030 年实现。但到了那个时间点,它必然会发生。我觉得更有趣的是某些初创公司,对了,你们投资了德文·拉奥 (Devine Rao) 的公司吗?”

主持人 Sean: “我们投了。”

迪伦·帕特尔: “好的。我觉得他试图在硅芯片层、软件抽象层和模型层同时进行创新。而且他完全明白,这不是那种‘我们在几年内就能搞定’的项目。这不是两年的时间跨度,甚至不是几年的事,而是一个长期的技术押注。像这种‘我们要将模拟计算 (Analog Compute) 和基于能量的模型 (Energy-Based Models) 等所有疯狂的想法一次性全部实现’的宏大叙事,真的非常令人兴奋。大概率会失败,但你知道,这本身就让人心潮澎湃。而且我很喜欢……”

主持人 Sean: “非常期待它的表现。”

迪伦·帕特尔: “是的,我该说的是,它绝对无法一蹴而就。但我相信德文 (Devine),有趣的是,他算是我入行时最早认识的一批人之一,大概是在 2020 或 2021 年。确切地说,是 2020 年。”

主持人 Sean: 他的成就很能说明他的为人。在我的印象里,他总是致力于提携后辈,努力发掘人才。

主持人 Sonya: 他在 Mosaic 项目上的眼光实在太超前了。我还记得当时听过他的推介。

迪伦·帕特尔: 其实那时我还是个小透明。我在网上“钓鱼”吸引他的注意,没想到他真的回复我了。后来我们转到了私信,接着又通了电话。他是我在整个半导体行业(semiconductor industry)中交谈过的第一位真正的大佬。那挺有意思的。不过,抱歉打断你了。

主持人 Sonya: 是啊,那确实挺有意思。你认为整个生态系统的最终形态会是什么样?比如,你觉得每个实验室和每个超大规模云服务商(Hyperscaler)最终都会拥有自己的专属芯片吗?现在看来,Trainium 芯片似乎已经做成了,对吧?所以,你认为最终的结局会是每个实验室、每个超大规模云服务商都有自己的芯片吗?至少在推理端是这样,而在训练端可能还是会去找 NVIDIA 或其他厂商?你觉得最终格局会是怎样?

迪伦·帕特尔: 我认为大家都会去尝试,而且绝不会停止探索。归根结底,供应链至关重要,你所能整合的技术能力同样关键。随着产业的不断壮大,供应链的多元化是水到渠成的必然趋势。

目前,各家自研芯片的物理结构都大同小异:中间是一块硕大的逻辑计算裸片(logic compute die),四周、顶部和底部环绕着高带宽内存(HBM)。顶部负责网络通信,底部管理 PCIe 和其他输入输出(IO)。无论是 Trainium、TPU、NVIDIA 的芯片,还是大多数初创公司的产品,其架构几乎如出一辙——当然,Groq 和 Cerebras 除外,他们在做一些打破常规的尝试,这非常酷。

随着行业的演进,我们会看到硬件架构和模型架构出现更多的分化,这将促使人们将两者进行协同优化。在这个过程中,有些人最终会陷入“局部极小值”(local minima)。如果我们把这看作是一场梯度下降(gradient descent)的寻优之旅,每个人都试图抵达最完美的全局最优解,那么必然会有人不可避免地狂奔进局部极小值的死胡同。 接下来的问题就是:你该如何抽身退步,重新滑向那个绝对的全局最优解?

在某种程度上,NVIDIA 芯片的通用性永远会比其他任何芯片更强,至少在并行 AI 计算领域是如此。因为他们拥有极其庞大的客户群体,这些客户的需求五花八门,并能持续不断地提供设计反馈。一款专用芯片在执行特定任务时或许能碾压 NVIDIA,但这会不会又是一个局部极小值呢?比如,TPU、Trainium、Groq 或 Cerebras 的设计可能完美契合当下的技术状态,但如果行业终极目标发生了偏移,他们就会发现自己站错了赛道。它们或许能各领风骚一两年,但最终却难免落入次优的窘境。这才是真正致命的问题。

我坚信,通用 AI 计算将拥有广阔的市场。因为如果你去和各大实验室的人聊聊,他们甚至连自己明年会用什么架构都一无所知。他们正在进行许多激动人心的研究押注,但未来究竟走向何方,无人知晓。通常,他们只清楚手里有什么硬件,并试图以此进行协同优化。但归根结底,如果模型架构迎来一次底层突破,整个游戏规则都将被彻底颠覆。

假设有朝一日,注意力机制(Attention Mechanism)被其他东西取代了呢?谁说得准?又或者,某种技术突变猝然降临,所谓“最佳硬件”的标准也会随之改写。因此,人们究竟是愿意孤注一掷,为一款高度专用的 ASIC 砸下五年的重金,还是更倾向于储备一池子通用性更强的算力?

你可以看看这个例子:有人为了 GPU 向 xAI 支付高达每小时 11 美元的费用,这简直疯狂。这个价格极高,显然算力正处于极度稀缺状态,但考虑到谷歌自己就有 TPU,这事儿依然让人觉得不可思议。这不禁让人产生疑问:他们为什么要这么做?实际上,谷歌内部有三个并行的 TPU 设计项目。他们正与博通(Broadcom)合作研发一种架构的 TPU,同时与联发科(MediaTek)合作另一款不同架构的 TPU,而这两者又与他们未公开的其他研究架构截然不同。他们不仅仅是找几个供应商来代工同一种架构,而是在同时押注截然不同的架构路线。

我相信大家都意识到了“局部极小值”的陷阱,因此每家巨头都会推进自己的 ASIC 项目。他们都会豪掷数十亿——像谷歌甚至是数百上千亿美元——来部署自研 ASIC。但最终,他们依然会有无法用 TPU 跑通的工作负载。事实上,谷歌内部除了 Gemini 或 DeepMind 之外的一些项目押注,主要使用的恰恰是 GPU 而非 TPU。

这是一个无比广阔的图景;举个例子,在药物研发或是 Waymo 自动驾驶项目中,你可能并不想用 TPU。AI 领域存在着不同的架构押注和演进路径。面向科学研究的 AI(AI for Science),其算法模式可能与通用人工智能(AGI)模型截然不同。

因此,我认为多样性将持续繁荣。正因为这块蛋糕已经变得如此庞大,各种细分市场将被不断开辟出来。这意味着,即使绝大部分市场份额被 NVIDIA、TPU 和 Trainium 瓜分,其他公司依然能守住自己的利基市场(Niche)并赚得盆满钵满。

算力紧缺与新兴云厂商(NeoClouds)

主持人 Sonya: 说得太透彻了。我们能聊聊数据中心的建设吗?目前从各种统计口径来看,如果你去分析诸如“每计算小时成本”这类图表,就会发现我们正处在一场疯狂的算力紧缺之中。这似乎是一场供需双杀的紧缺,对吧?需求端,对长视距智能体(long horizon agents)的需求正在暴涨;供给端,所有这些数据中心的建设却都在延期。你认为我们在可预见的未来会一直深陷算力紧缺之中,还是说这种情况在某个时间点会迎来拐点?

迪伦·帕特尔: 是的,我们每个季度部署的算力规模都远超上个季度,在建的数据中心也越来越多。今年,即便把延期因素算进去,算力规模也将达到 20 吉瓦(GW)。明年,同样在扣除延期预期后,这一数字将超过 30 吉瓦。当然,万物皆可延误;只要涉及到硬件,延期就是家常便饭。这就是残酷的现实。

我们会终身受困于算力紧缺吗?这取决于模型进化的方向。Mythos 5 和 Fable 5 的总潜在市场(Total Addressable Market, TAM)绝不仅仅是 Opus 的两倍。当模型能力出现质的飞跃、能够胜任更多海量的任务时,其 TAM 将会呈指数级扩大。然而,自 Opus 4.5 发布以来的这六到八个月里,全球的算力并没有翻倍,更没有翻四倍。但 AI 能够执行的有价值任务的需求——无论是任务数量还是其蕴含的商业价值——却呈现出了爆炸式的指数级增长。

现在的问题是:下一步会发生什么?显然,如果不计入基于股票的薪酬支出(stock-based compensation),Anthropic 在第二季度就已经实现了盈利。我认为到了第三季度,即便把股票薪酬算进去,他们甚至也能实现全面盈利。这就是他们如今恐怖的吸金能力。相对于 API 的定价,他们在一个 Opus 4.8 Token 上能攫取超过 80% 的毛利。尽管通过亚马逊 Bedrock 和谷歌 Vertex 等平台达成的交易会拉低部分整体企业毛利率,但他们单 Token 的利润率依然高得惊人。

只要你拥有支付能力,你就手握制胜王牌。 归根结底,他们买进的每一张 GPU——即便溢价购买——都是一笔稳赚不赔的投资。他们甚至能以低于谷歌的价格从 SpaceX 买到 GPU,仅仅是因为他们下手更早。这是其他依赖风投输血、或者尚未实现正向利润的公司根本玩不起的资本游戏。这其中的成本收益比如何计算?大道至简:我为了扩充算力而租用的每一张 GPU 或 TPU,都能立刻化作印钞机,源源不断地生成 Token,并以正毛利变现。

如果我目前维持着 75% 的毛利率,那么即便算力成本翻倍,也无伤大雅,我依然能保住 50% 的毛利。而且,如果是采用租赁模式,启动更多的计算节点对他们来说甚至都不需要多少人力成本。所以归根结底,我的净营业收益(NOI)依然在节节攀升,对吧?因此,我会在某种程度上不惜一切代价去租用 GPU,只要我愿意付,我就付得起。

主持人 Sonya: 我的问题恰恰相反,在某个节点上,这种算力基础设施的狂热建设会不会突然暴雷?今天早些时候 Crusoe 发推公开表示,他们的一位客户要求暂停某个数据中心建设项目的施工。在目前的生态系统中,似乎每个人都背负着巨大的杠杆,口号都是“建、建、建”。“整个生态系统似乎都加足了杠杆,陷入了狂热。作为投资者,这种‘高杠杆叠加高增长’的模式让我感到极其不安。”

迪伦·帕特尔: 等等,先别急。“高杠杆叠加高增长”意味着只需投入极少的股权资本,就能撬动巨大的上涨空间 (Upside)。你不是债务投资者,你是信贷投资者,更是股权投资者啊。放手去干吧!

主持人 Sean: 嗯。

迪伦·帕特尔: 你真得去补一补私募股权 (Private Equity) 的课了。

主持人 Sonya: 直接买断,吃下整个产品线好了。

主持人 Sean: 她把这课给忘了。她在风险投资 (VC) 圈待得太久了。

主持人 Sonya: 不,我只是习惯看营收倍数 (Revenue Multiples)。但话说回来,你有看到任何(崩盘的)迹象吗?你会对此感到担忧吗?

迪伦·帕特尔: 我明白你的意思。这又回到了模型价值的逻辑上。显然,如果这些模型正在扩展工作的总经济价值——也就是你早些时候提到、我们曾做过的那份“暗物质 GDP(Dark GDP)”报告的核心观点。“如果模型能处理的工作量,其增长速度赶不上算力产能的扩张,潮水就会退去。” 但在过去六个月里,天平明显向模型端倾斜:模型能完成更多工作,或者说它们扩展工作总潜在市场 (Total Addressable Market, TAM) 的速度,远快于算力的增长。因此,算力价格水涨船高。

模型进步突然停滞,这是完全有可能的。如果你去问 Anthropic或 OpenAI 的任何人——也许他们是被“洗脑”了 (Drinking the Kool-Aid)——但基本上每个人的态度都非常坚决:不,模型仍在持续进化。归根结底,现有的方法论可能会在某个节点陷入停滞。我不确定这个节点在哪里,因为目前我们依然能清晰预见模型的快速迭代。

事实上,得益于我称之为“递归自我改进 (Recursive Self-Improvement)”的机制,如今模型的进步速度比半年或一年前还要快。模型正在辅助编写底层基础设施,并加速下一代模型的发布。这就形成了一个伪递归的自我改进闭环,模型正以加速度变得越来越强大。

然而,归根结底,资金始终是一个巨大的挑战,这也是为什么连 Google 这样的巨头也不得不进行融资的原因。要知道,他们持有庞大数量的 SpaceX 股份,对吧?他们拥有该公司大约 5%的股份——甚至更多——但确实,资本密集度是实实在在的。

主持人 Sean: 是的,也许她以为拉里·佩奇 (Larry Page) 当初在 100 亿美元估值时投了 10 亿美元,拿到了 10%的股份,后来被稀释了等等。但这绝对是有史以来最伟大的投资之一。干得漂亮,拉里。

迪伦·帕特尔: 没错。所以他们深知自己账上有上千亿美元的现金,或者九个月锁定期满后可以变现的资产,再加上他们创造的巨额毛利,但即便如此,他们在做完财务模型后依然得出结论:“我们需要融资。”于是他们发行了债券,这听起来简直疯狂。这也恰恰说明了他们认为接下来需要烧多少钱。

但资金确实是个大问题……Meta 之前宣布要增加资本支出进行融资时,股价应声大跌,市场并不买账。但这也就是现实:所有这些公司最终都要去市场上找钱,不管是债权还是股权。到了某个临界点,资金的闸门 (Money Spigots) 肯定会收紧。

但就目前而言,亚马逊每增加一块 GPU,或者任何公司增加一块 TPU或 Trainium 芯片,都能带来更高的营收和毛利。

主持人 Sean: 我想就此转换个视角,抛给你一个问题。当我们讨论这些时,我脑海中浮现出的是对 Crusoe 案例的一种替代假设 (Alternative Hypothesis)。我用石油工业打个比方:沙特阿拉伯每桶原油的开采成本远低于其他许多国家,而且他们的石油杂质极少,炼化起来非常容易。

我的问题是:当你审视每一个落地建设的吉瓦 (Gigawatt) 算力——包括目前即将上线的 20 吉瓦——你认为这些算力的同质化程度有多高?你可以用任何你认为合理的指标来衡量,但比如说,Google 的吉瓦算力,其价值会是大多数“新型云厂商 (Neoclouds)”的两倍吗?因为他们使用了光交换机 (Optical Switches),在这个领域深耕多年,并且懂得如何进行电力平滑调度 (Power Smoothing)。

我认为这可以作为一种替代假设:为什么那些精通数据中心建设的头部玩家,在海量需求和自身卓越能力的加持下,应该将规模扩张到极致。反之,也许我们已经开始看到早期迹象,那些在这个领域不够专业的玩家正陷入困境。我不确定真正的原因究竟是什么。

迪伦·帕特尔: 是的,我对大家怎么看这个问题也很好奇。不过到目前为止,我们已经有具体的衡量指标了,对吧?例如,Trainium 提供给 Anthropic和 OpenAI 的租赁费率低于每吉瓦 (Gigawatt) 100 亿美元。而在过去六个月的疯狂期之前,GPU 的价格通常在每吉瓦 120 亿到 130 亿美元左右。这就是新型云厂商与亚马逊之间的租金差异。即便现在亚马逊对外出租 GPU,价格也大概在 130 亿美元左右。

主持人 Sean: 而且我的理解是,亚马逊对这些数字进行了一定程度的补贴。所以我其实认为实际的差价甚至更大。Trainium 的价格不仅低于 100 亿,而且中间还包含了一些复杂的置换条件。而且你看,据我了解,Anthropic 在提升 Trainium 实用性方面发挥了巨大作用,比如帮他们编写了各种底层库 (Libraries) 等。所以我听到的所有反馈都是:Trainium 真的是非常出色的硬件,而且正变得越来越强大。显然,Anthropic 现在也在大量使用它。因此,我们有望看到它的价格逐步回升。

迪伦·帕特尔: 是的,他们签署的协议实际上包含一个保底机制 (Floor Mechanism):如果芯片性能不佳,价格就会下降——甚至可以触发合同取消;如果性能优异,价格就会水涨船高。算下来,Trainium 的实际成本不到 100 亿美元。相比之下,SpaceX与 Google 达成的 GPU 租赁协议则极为夸张:年租金费率高达每吉瓦 250 亿美元,折合每兆瓦 (Megawatt) 2500 万美元。我认为这是一种极其疯狂的背离 (Divergence)。显然,如果亚马逊今天对外出租 Trainium,由于算力短缺,价格大概率会超过 100 亿美元。

我们在数据中心市场已经看到了这种价差。如果你做的是机房托管 (Co-location)——不提供算力本身,只提供电力——数据中心的定价通常是“每千瓦每月多少美元”。过去的价格大概是每月每千瓦 60 美元,但现在你能看到交易价格飙升到了 120 美元到 160 美元不等。定价完全取决于质量;我见过高达 200 美元的报价,那是因为客户信用评级较差,但设施属于顶配。反之,在印度等地,我也见过低至 100 美元甚至 80 美元的报价,因为那里电网不可靠、网络不稳定,且基础设施一般。市场上已经出现了巨大的价格分化。

关于数据中心的建设,一个常见的坑 (Pitfall) 是,许多项目最后直接烂尾了。很多情况是,一小撮人买了几台燃气轮机 (Turbines)、付了首付,就四处宣扬要建数据中心,结果工程不断延期,最终彻底黄掉。正因如此,你在评估这些团队时,必须根据他们的过往业绩,对预期进行概率加权 (Probability-weight) 和时间滞后 (Time-lag) 调整。我们的数据中心模型正是这么做的;我们追踪每一个数据中心项目,并根据其使用的具体设备及各种其他因素,动态调整我们的预测。

你刚才提到 Google 的一点很有意思:在一个 1 吉瓦的数据中心里,他们实际上会部署大约 1.5 吉瓦的硬件设备。因为他们拥有极其深厚的技术底蕴——从底层工作负载 (Workload) 一直到最顶层——这使得他们能够在内部灵活调配 (Slosh around) 电力。通常情况下,1 吉瓦的恒定算力,其实际功耗利用率只有 60%到 70%。但 Google 不会这么浪费,他们通过精细化管理负载,将整体容量的利用率榨取到极致。你会看到 Google 在与公用电力公司签署协议时,非常清楚电网在可持续状态下到底能支撑多少负荷,从而在这些限制范围内实现运营的最优化。

他们会跟电网公司说:“除了一年中最极端的两三天,你们的电网实际上能承载 2 吉瓦。那就直接批给我 2 吉瓦吧,到负荷吃紧的时候通知我断电削峰就行。”他们就是这么干的。正是通过这类策略,再加上对工作负载、备用电源以及现场发电机的极致管理,才让他们摸索出了如何真正实现这 2 吉瓦算力的可持续稳定运行。

当人们做到这一点时,他们就能获得更高的定价权。无论是通过电池、天然气等手段进行调节,从而在只有一吉瓦(GW)实际电力的情况下卖出两吉瓦的容量,还是通过现场发电,在别人拿不到电的地方硬生生凑出一吉瓦,你都能借此实现快速运转。核心不一定是以更高的单价成交,而是卖出更多的吉瓦数。有时,你可以通过一些杠杆手段售出更多的电力,且每份电力的定价各不相同。

在数据中心和能源层面,我认为核心在于“有电”还是“没电”,以及这种差异是否会导致交付延误。这是一个非黑即白(Binary)的问题。

然而,在算力层面,我认为正在发生许多更有趣的事情。将一吉瓦的算力分配给 Anthropic,客观上能比分配给 OpenAI 创造更高的营收价值。考虑到目前的速率限制和词元(Token)上限问题,他们似乎都能百分之百消化掉手头的每一吉瓦算力——特别是在性能大幅提升的 Claude 3.5 Sonnet 发布之后。同样地,如果你把一吉瓦算力给 SpaceX……

主持人 Sean: 我的推测是,他们可能比大多数人更懂得如何压榨硬件的极致性能。我认为人们严重低估了他们通过星链(Starlink)积累的深厚网络经验,以及从特斯拉(Tesla)获得的电源管理经验。像 Brett Mayo 这样的人简直不可思议。对我而言,这可能正是许多人在分析时缺失的关键环节,尽管我也不能完全笃定。

迪伦·帕特尔: 还有一个不可忽视的事实:当 CoreWeave 构建出一吉瓦算力时,尽管他们的 GPU 计算性能客观上确实优于亚马逊、谷歌或微软(我们也对其实际性能和可靠性进行过测试),但问题在于,谷歌在算力实际上线前六个月就开始预售了。他们需要拿着签好的合同去进行信用抵押贷款,筹到钱后才能回头去支付他们已经开出的采购订单(PO)。而 SpaceX 的做法则是:“不,现在这东西已经在跑了,直接买吧。”当你拥有足以支撑这种霸气运营的资产负债表(Balance Sheet)时,两者之间就拉开了巨大差距。这也极大地拉高了你每兆瓦带来的平均收入。

主持人 Sonya: 为什么会出现“新型云厂商”(Neo-Cloud)这种机会?如果五年前你问我,我会说超大规模云厂商(Hyperscalers)将赢者通吃。你刚才提到 CoreWeave 的性能优于这些云巨头,那么从宏观层面和执行层面来看,这种逆袭的机会为何会存在?

迪伦·帕特尔: 2023 年,我写过一份让亚马逊对我恨之入骨的报告,名叫《亚马逊云危机》(Amazon Cloud Crisis)。我在文中提到,亚马逊之所以曾是毫无争议的最强云厂商,是因为他们的 Nitro 网卡(NIC)通过在网卡上运行虚拟机管理程序(Hypervisor)实现了租户隔离,从而让他们能够售出所有的 CPU 核心。他们还通过直接采购裸 NAND 闪存来开发定制 SSD,并利用自研的 Graviton CPU 进一步压低了单核成本。这些创新使他们能在传统云市场中提供更好的安全性和网络支持,同时卖出更多核心。

然而在 AI 云领域,这些曾经的杀手锏反而成了性能的绊脚石。例如,尽管经过了多次迭代改进,Nitro 网卡在性能表现上依然拉胯。此外,许多传统安全开销完全是多此一举,因为与 CPU 工作负载中用户进行时间分片(Time-slicing)或共享插槽不同,在 AI 时代,没人会在一台 8-GPU 的服务器或 72-GPU 的机架中只单租一块 GPU。客户通常是签订长期合同,直接包下整个机架甚至多个机架,而不是进行短期的零星租赁。

GPU 租赁市场的运行机制意味着,超大规模云厂商过去的许多传统专业经验已毫无用武之地,甚至适得其反。对于谷歌和亚马逊来说,他们引以为傲的定制网络是为传统 CPU 工作负载量身打造的,但在 AI 面前却显得力不从心。

同样,虽然微软打算通过自建数据中心来缩减开支,但他们的团队并不总能驾驭 AI 爆发所需的恐怖扩展速度。当建设进度可预测时,一切安好;但当需求预测突然翻倍时,他们就崩盘了,不得不向外求援,依赖第三方的算力容量。归根结底,性能和推向市场的时间(Time-to-market)才是命门,而这些庞大的组织架构往往缺乏快速建设数据中心的结构性激励机制。

相反,你看看 Crusoe,Chase 以及团队里的其他人。如果他们能以极快的速度交付算力,这些人就能赚得盆满钵满。

主持人 Sean: 他们都是加了高杠杆的股权持有者。而且别忘了,他们都出身于比特币圈子。虽然大家平时心照不宣不提这茬,比如他们的核心数据中心负责人其实是前微软员工。我只是开个玩笑,但你确实能在高波动率的市场中历练出真本事。

主持人 Sonya: 你觉得黄仁勋是怎么下这盘大棋(4D Chess)的?

迪伦·帕特尔:黄仁勋绝对憎恨一个由超大规模云厂商掌控所有权力的世界。他之所以到处撒钱,给各种看似随机的 AI 实验室投资(即使外界一时看不懂他的意图),并满世界鼓动大家去投资这些公司,是有深层原因的。他渴望创造一个多极化的世界。这就是为什么他愿意拥抱中国的人工智能实验室;他必须阻止未来被 OpenAI、Anthropic 和谷歌这几家巨头垄断,因为那将是他的绝境。

如果未来只有超大规模云厂商在建设算力,黄仁勋就彻底完了。因此,他被迫将算力分配的枪口对准“新型云厂商”(Neo-Clouds),为他们的计算集群做信用兜底,并倾尽一切力量扶持他们。虽然今天一块 GPU 卖给 Crusoe、CoreWeave 或是卖给谷歌、亚马逊,黄仁勋赚到的钱是一样的,但五年后,只要 Crusoe 和 CoreWeave 依然坚挺,谷歌的 TPU 和亚马逊的 Trainium 就会面临更强劲的外部阻击。此外,让更多的推理任务在非闭源模型实验室中运行,对他未来的商业版图也更为有利。

“新型云厂商”(Neo-Cloud)和“新型实验室”(Neo-Labs)的生态系统就像是一个狂野的“蛮荒西部”(Wild West),其中许多机构都拿到了 NVIDIA 的投资。虽然大浪淘沙下许多公司注定会倒下,但总会有几支真正伟大的团队脱颖而出。比如 Crusoe,一群从加密货币狂热中转型去建数据中心和火炬气(Flare Gas)能源解决方案的极客;或者 CoreWeave,一支带着对冲基金和加密货币基因的团队。同一时期起步的许多公司都成了炮灰,但这两支团队已经证明了自己是极其出色的。

主持人 Sean: 是的,确实应该给予他们极高的认可(Credit),这也是你想表达的核心观点,不过……

迪伦·帕特尔: 我的观点是,这就像往水里撒下一大把鱼饵,最聪明的鱼自然会摸清门道,脱颖而出。对于那些新兴云厂商(Neo Clouds)来说是这样,他也希望对于新兴 AI 实验室(Neo Labs)同样如此。到底哪几家新兴实验室能真正崭露头角,我们拭目以待。不过你看,Thinking Machines 已经实现了几亿美元的年度经常性收入(ARR),对吧?这相当了不起。即便媒体上总在唱衰,觉得他们人才流失惨重,但现实是,Tinker 依然创造了几亿美元的 ARR。对于一个问世不到六个月的新产品来说,一出场就能达到如此规模,绝对令人瞩目。我们也希望同样的好戏能在其他新兴实验室身上上演。所以说,他所追求的,是一个多极化的世界。

主持人 Sean: 确实如此。衷心祝贺你们取得的巨大成功。

迪伦·帕特尔: 谢谢,非常感谢。

主持人 Sean: 最后我想说的是,我对这一切也有所见证。听完你的分享,我想公众都能真切地感受到你有多拼。显然,正是过去十多年来的拼尽全力,才换来了你们最近几年的“天时地利”。你所取得的成就令人难以置信,而且我知道,这一切仅仅是个开始。非常感谢你能来接受这次访谈,太棒了。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接