| AiCoin 实时快讯

BTC

💲80015.62

ETH

qinbafrank|2026年04月29日 09:31

非常深度一篇文章，从GPU架构进化的第一性原理出发，重点解答市场长期担忧的问题：为什么每个GPU的HBM内存需求必然是指数级增长？为什么HBM需求不会像传统DRAM那样停滞或周期性崩盘？记录个要点当做阅读笔记 1. AI推理时代的核心KPI已彻底改变 CPU时代：最高KPI是“performance / FLOPS”（跑分越快越好）。 AI推理时代（尤其是agentic flow兴起后）：最高KPI变成token经济学——单位成本/单位电力下的token吞吐量（throughput） + token生成速度。 Nvidia的“AI工厂”本质就是：最低成本输出最多token，同时尽量提高token速度。Pareto frontier曲线要不断向右上方移动。 2. Token吞吐量的第一性原理公式（核心结论） Token throughput = HBM Size（容量） × HBM Bandwidth（带宽）Batch size（同时处理的请求数）的瓶颈 = HBM Size 因为每个请求都自带hot KV cache，必须放在HBM里。随着batch增大，KV cache线性增长，HBM容量必须同步线性增长（否则就像接驳车车厢太小，要分多趟拉人）。每个user的token生成速度的瓶颈 = HBM Bandwidth 生成每一个token都要多次高频读取HBM里的权重和KV cache。带宽越高，decode速度越快（就像接驳车车门越宽，旅客上下车越快）。完整类比：吞吐量 = 接驳车车厢容量（HBM Size） × 车门宽度（HBM Bandwidth）。只要想让token吞吐量每一代翻倍，HBM的Size × BW乘积就必须翻倍。这是硬件天花板，软件优化无法根本替代。 3. CPU时代 vs. AI时代的本质差异 CPU时代：DDR只是“辅助”，升级极慢（DDR3到DDR5花了15年）。原因：CPU有大量cache、superscaler等隐藏延迟；日常workload对带宽/容量需求低；app size增长慢。 AI/GPU时代：计算范式彻底转向“memory-bound”（内存受限）。推理即内存，KV cache + 上下文长度 + 多请求并发，把所有压力都压在HBM上。HBM已从“锦上添花”变成决定性因素。 4. 验证与现实对应 Nvidia从A100 → Rubin Ultra的token吞吐曲线，与HBM Size × BW曲线在对数轴上几乎完全重合（文章提到图二）。即使利用率（utilization）很难达到100%，HBM仍是整个系统的天花板。老黄必须逼御三家（三星、海力士、美光）不断升级，否则GPU就卖不出去。 5. 软件优化无法改变硬件需求软件再优化（如LPU把权重搬到SRAM），也只是从另一个维度改善Pareto曲线，硬件天花板仍由HBM决定。就像CPU时代软件再快，CPU厂也必须持续升级跑分一样(qinbafrank)

曾提及

APP下载

Windows

Mac

分享至：

Facebook

复制链接

分享至：

脉络

04月23日 01:26闪电网络交易吞吐量高但未普及

03月30日 13:29SUPERNOVA即将到来，新的技术基础

脉络

热门快讯

热门阅读