《英伟达份额只剩 48%,推理大时代机会在哪?》
这是 AI 投研 100 篇系列的第九篇,2万字,建议先收藏,估计能看完的不多。
前几篇看了 Intel、AMD、ARM 这几家。它们过去一年股价涨幅都不小——AMD 翻倍、Intel 三倍、ARM 也站上历史高位。涨上来之后,一个朴素的问题就来了:这些已经涨过的还能不能拿?没涨的里面还有没有机会?
要回答这个问题,绕不开一个核心词——推理。前面那些公司涨上来,分析里反复出现的就是这两个字。
那么:推理的赛道有多大?目前在什么阶段?哪些公司会如何受益?哪些已经被市场定价,哪些没有?
这是应该被最先搞懂的。
一、赛道有多大
模型训练是「写程序」,推理是「这个程序每天被调用的过程」。GPT 训出来之后,每天有几亿人去问它问题,每一次问答都在消耗推理算力。Claude Code 跑一个任务,agent 自己跑一百轮,每一轮都是推理。
多份行业研究和媒体引用都指向同一个方向:模型进入生产环境后,推理会成为生命周期成本的大头,常见估算区间在 80-90%。也就是说,未来 AI 时代的算力账单里,10 块钱有 8 块是推理在烧。
但市场过去三年讨论的几乎全是训练,因为训练是更"性感"的故事——比谁的 H100 多、谁的参数大、谁先训出下一代模型。推理被当成训练完之后顺带的事。
这个认知偏差正在被扭转,而这,正是过去一年这一批半导体公司被重新定价的根本原因。
那推理这条赛道大,但到底有多大?具体可以从5个角度测算。
一是用户数。 ChatGPT 周活 9 亿、付费 5000 万。中国侧的对比更直接——日均 token 调用量从 2024 年初的 1000 亿涨到 2026 年的 140 万亿,1400 倍。这一项还远远没饱和。
二是使用强度。 OpenAI 的 token 处理量在 2025 年 10 月还是每分钟 60 亿,2026 年 4 月已经到 150 亿——半年翻 2.5 倍。企业版收入占比超过 40%,企业用户的使用强度是消费者的几十倍。
三是对话长度。 上下文长度从早期的几百 token,到现在DeepSeek API 文档列出的 V4 Pro / Flash 上下文长度为 1M,最大输出为 384K。文档越长,单次推理消耗的内存和算力越高。
四是模型本身越来越费算力。 OpenAI o1、DeepSeek R1、Claude thinking 这一类 reasoning 模型,回答问题之前会先在内部"思考"几千甚至几万个 token。黄仁勋曾以 DeepSeek R1 为例谈到,推理模型可能需要高得多的计算量,甚至达到百倍量级
过去你问 AI 一个问题,它直接给答案;现在你问 AI 一个难题,它先在脑子里想半分钟,再给答案。这中间的"想半分钟",就是新增的算力消耗。
五是 agent。 一个 agent 任务通常要调模型 10-100 次。OpenAI Codex 周活已经突破 300 万——这只是一家公司的一个产品。一名 AI 产业链人士的判断是,AI 智能体的整体算力消耗可达同参数规模大语言模型的 10 倍以上。
五件事相乘,三五年内推理总需求出现数量级扩张,并不是夸张叙事,而是一个越来越接近主流的判断。
经济学有一个老现象叫 Jevons Paradox——一个东西的单位使用效率提升后,总消费量反而上升,因为它变便宜了,更多场景敢用了。蒸汽机效率提高后英国煤炭消耗暴增;推理 token 单价下降后 AI 调用次数暴增。这是同一个剧本。IEA 测算,全球数据中心耗电从 2024 年占总用电 1.5%,到 2030 年翻倍到 945 TWh——大概相当于德国和法国全年用电量加起来。
而且,从产业一线的具体动作也能进一步扎实论点:
Anthropic 的 ARR 从 2024 年底 10 亿美元,到 2026 年初 300 亿美元——14 个月 30 倍。为了支持这条曲线,它一家公司在 2025 年底到 2026 年初锁定了超过 11 GW 的算力,其中向博通订购了 210 亿美元的 TPU。OpenAI 已经承诺部署 10 GW 的定制芯片。Google TPU 2026 年出货量目标上调 50% 至 600 万颗。
云厂商资本开支的数字更直接。Google 2026 年资本支出计划 1750-1850 亿美元,几乎是 2025 年的两倍;Amazon 2026 年投入 2000 亿美元;Meta 计划增加 65% 至 1180 亿美元。八大云厂商合计 2026 年资本开支将推升至 6000 亿美元以上,年增 40%。
把这些放在一起,结论简单——AI 推理需求曲线已经超出任何一家硬件供应商的供给能力。
这就是推理赛道的全部底色:训练时代是「造一个神」,推理时代是「这个神每天要被几亿人调用、每个 agent 调用一百次、每次思考几万个 token」。从前者到后者,算力消耗不是线性增加,是几何级跳跃。
二、哪些股票会受益?
赛道大不代表所有公司都受益,而且, 英伟达独占的局面已经在数据上松动了!
2026 年全球 AI 推理芯片市场上,英伟达份额约 48.2%, AMD 约 16.7%,ASIC 阵营合计约 18.5%(其中 Google TPU 7.8%、AWS Inferentia 5.2%、其他 ASIC 5.5%),国产推理芯片合计 16.6%。
英伟达在训练市场仍然保持 80%+ 的份额,但在推理市场已经只有不到一半,为48.2% 。
为什么会这样?
训练时代英伟达打的是综合实力——高性能 GPU + NVLink 高速互连 + CUDA 生态。这套组合在训练上是降维打击。
阅读全文:《英伟达份额只剩 48%,推理大时代机会在哪?》
https://mp.weixin.qq.com/s/pbT3QSbtLpEoJc1T4gL2Sw
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。