qinbafrank
qinbafrank|2026年04月29日 09:31
非常深度一篇文章,从GPU架构进化的第一性原理出发,重点解答市场长期担忧的问题:为什么每个GPU的HBM内存需求必然是指数级增长?为什么HBM需求不会像传统DRAM那样停滞或周期性崩盘?记录个要点当做阅读笔记 1. AI推理时代的核心KPI已彻底改变 CPU时代:最高KPI是“performance / FLOPS”(跑分越快越好)。 AI推理时代(尤其是agentic flow兴起后):最高KPI变成token经济学——单位成本/单位电力下的token吞吐量(throughput) + token生成速度。 Nvidia的“AI工厂”本质就是:最低成本输出最多token,同时尽量提高token速度。Pareto frontier曲线要不断向右上方移动。 2. Token吞吐量的第一性原理公式(核心结论) Token throughput = HBM Size(容量) × HBM Bandwidth(带宽)Batch size(同时处理的请求数) 的瓶颈 = HBM Size 因为每个请求都自带hot KV cache,必须放在HBM里。随着batch增大,KV cache线性增长,HBM容量必须同步线性增长(否则就像接驳车车厢太小,要分多趟拉人)。 每个user的token生成速度 的瓶颈 = HBM Bandwidth 生成每一个token都要多次高频读取HBM里的权重和KV cache。带宽越高,decode速度越快(就像接驳车车门越宽,旅客上下车越快)。 完整类比: 吞吐量 = 接驳车车厢容量(HBM Size) × 车门宽度(HBM Bandwidth)。 只要想让token吞吐量每一代翻倍,HBM的Size × BW乘积就必须翻倍。这是硬件天花板,软件优化无法根本替代。 3. CPU时代 vs. AI时代的本质差异 CPU时代:DDR只是“辅助”,升级极慢(DDR3到DDR5花了15年)。 原因:CPU有大量cache、superscaler等隐藏延迟;日常workload对带宽/容量需求低;app size增长慢。 AI/GPU时代:计算范式彻底转向“memory-bound”(内存受限)。 推理即内存,KV cache + 上下文长度 + 多请求并发,把所有压力都压在HBM上。HBM已从“锦上添花”变成决定性因素。 4. 验证与现实对应 Nvidia从A100 → Rubin Ultra的token吞吐曲线,与HBM Size × BW曲线在对数轴上几乎完全重合(文章提到图二)。 即使利用率(utilization)很难达到100%,HBM仍是整个系统的天花板。老黄必须逼御三家(三星、海力士、美光)不断升级,否则GPU就卖不出去。 5. 软件优化无法改变硬件需求 软件再优化(如LPU把权重搬到SRAM),也只是从另一个维度改善Pareto曲线,硬件天花板仍由HBM决定。就像CPU时代软件再快,CPU厂也必须持续升级跑分一样(qinbafrank)
曾提及
分享至:

脉络

热门快讯

APP下载

X

Telegram

Facebook

Reddit

复制链接

热门阅读