《英伟达份额只剩 48%

《英伟达份额只剩 48%，推理大时代机会在哪？》

这是 AI 投研 100 篇系列的第九篇，2万字，建议先收藏，估计能看完的不多。

前几篇看了 Intel、AMD、ARM 这几家。它们过去一年股价涨幅都不小——AMD 翻倍、Intel 三倍、ARM 也站上历史高位。涨上来之后，一个朴素的问题就来了：这些已经涨过的还能不能拿？没涨的里面还有没有机会？

要回答这个问题，绕不开一个核心词——推理。前面那些公司涨上来，分析里反复出现的就是这两个字。

那么：推理的赛道有多大？目前在什么阶段？哪些公司会如何受益？哪些已经被市场定价，哪些没有？

这是应该被最先搞懂的。

一、赛道有多大

模型训练是「写程序」，推理是「这个程序每天被调用的过程」。GPT 训出来之后，每天有几亿人去问它问题，每一次问答都在消耗推理算力。Claude Code 跑一个任务，agent 自己跑一百轮，每一轮都是推理。

多份行业研究和媒体引用都指向同一个方向：模型进入生产环境后，推理会成为生命周期成本的大头，常见估算区间在 80-90%。也就是说，未来 AI 时代的算力账单里，10 块钱有 8 块是推理在烧。

但市场过去三年讨论的几乎全是训练，因为训练是更"性感"的故事——比谁的 H100 多、谁的参数大、谁先训出下一代模型。推理被当成训练完之后顺带的事。

这个认知偏差正在被扭转，而这，正是过去一年这一批半导体公司被重新定价的根本原因。

那推理这条赛道大，但到底有多大？具体可以从5个角度测算。

一是用户数。 ChatGPT 周活 9 亿、付费 5000 万。中国侧的对比更直接——日均 token 调用量从 2024 年初的 1000 亿涨到 2026 年的 140 万亿，1400 倍。这一项还远远没饱和。

二是使用强度。 OpenAI 的 token 处理量在 2025 年 10 月还是每分钟 60 亿，2026 年 4 月已经到 150 亿——半年翻 2.5 倍。企业版收入占比超过 40%，企业用户的使用强度是消费者的几十倍。

三是对话长度。上下文长度从早期的几百 token，到现在DeepSeek API 文档列出的 V4 Pro / Flash 上下文长度为 1M，最大输出为 384K。文档越长，单次推理消耗的内存和算力越高。

四是模型本身越来越费算力。 OpenAI o1、DeepSeek R1、Claude thinking 这一类 reasoning 模型，回答问题之前会先在内部"思考"几千甚至几万个 token。黄仁勋曾以 DeepSeek R1 为例谈到，推理模型可能需要高得多的计算量，甚至达到百倍量级

过去你问 AI 一个问题，它直接给答案；现在你问 AI 一个难题，它先在脑子里想半分钟，再给答案。这中间的"想半分钟"，就是新增的算力消耗。

五是 agent。一个 agent 任务通常要调模型 10-100 次。OpenAI Codex 周活已经突破 300 万——这只是一家公司的一个产品。一名 AI 产业链人士的判断是，AI 智能体的整体算力消耗可达同参数规模大语言模型的 10 倍以上。

五件事相乘，三五年内推理总需求出现数量级扩张，并不是夸张叙事，而是一个越来越接近主流的判断。

经济学有一个老现象叫 Jevons Paradox——一个东西的单位使用效率提升后，总消费量反而上升，因为它变便宜了，更多场景敢用了。蒸汽机效率提高后英国煤炭消耗暴增；推理 token 单价下降后 AI 调用次数暴增。这是同一个剧本。IEA 测算，全球数据中心耗电从 2024 年占总用电 1.5%，到 2030 年翻倍到 945 TWh——大概相当于德国和法国全年用电量加起来。

而且，从产业一线的具体动作也能进一步扎实论点：

Anthropic 的 ARR 从 2024 年底 10 亿美元，到 2026 年初 300 亿美元——14 个月 30 倍。为了支持这条曲线，它一家公司在 2025 年底到 2026 年初锁定了超过 11 GW 的算力，其中向博通订购了 210 亿美元的 TPU。OpenAI 已经承诺部署 10 GW 的定制芯片。Google TPU 2026 年出货量目标上调 50% 至 600 万颗。

云厂商资本开支的数字更直接。Google 2026 年资本支出计划 1750-1850 亿美元，几乎是 2025 年的两倍；Amazon 2026 年投入 2000 亿美元；Meta 计划增加 65% 至 1180 亿美元。八大云厂商合计 2026 年资本开支将推升至 6000 亿美元以上，年增 40%。

把这些放在一起，结论简单——AI 推理需求曲线已经超出任何一家硬件供应商的供给能力。

这就是推理赛道的全部底色：训练时代是「造一个神」，推理时代是「这个神每天要被几亿人调用、每个 agent 调用一百次、每次思考几万个 token」。从前者到后者，算力消耗不是线性增加，是几何级跳跃。

二、哪些股票会受益？

赛道大不代表所有公司都受益，而且，英伟达独占的局面已经在数据上松动了！

2026 年全球 AI 推理芯片市场上，英伟达份额约 48.2%， AMD 约 16.7%，ASIC 阵营合计约 18.5%（其中 Google TPU 7.8%、AWS Inferentia 5.2%、其他 ASIC 5.5%），国产推理芯片合计 16.6%。

英伟达在训练市场仍然保持 80%+ 的份额，但在推理市场已经只有不到一半，为48.2% 。

为什么会这样？

训练时代英伟达打的是综合实力——高性能 GPU + NVLink 高速互连 + CUDA 生态。这套组合在训练上是降维打击。

阅读全文：《英伟达份额只剩 48%，推理大时代机会在哪？》

https://mp.weixin.qq.com/s/pbT3QSbtLpEoJc1T4gL2Sw

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

《英伟达份额只剩 48%

BTCdayu的精选文章

目录

相关文章