K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

在AI推理大爆炸的新阶段

CN
BTCdayu
关注
1小时前
AI 总结,5秒速览全文

在AI推理大爆炸的新阶段,GPU 仍然稀缺和紧张,但是装得下数据、跑得快数据的内存才会是新的主角。

今天接着上篇,详细讲讲HBM,当前,HBM热度持续爆炸,而同时,众多为缓解HBM紧张的分层缓解方案和TPU等架构级替代尝试也在路上。

而市场对于存储最核心的关切是:存储到底是周期性产业,还是AI基础设施?

如果是前者,每个人都在等着鼓声停止,如果是后者,那将是完全不同的未来图景。这或许不是判断题,而是一道复杂的数学题,本文将从逻辑与事实的角度来试图剖析。

一、推理为什么让内存成为主角?

大模型推理时,每生成一个 token 要做三件事:

把整个模型的所有参数从内存读一遍,送到计算核心;

把这个 token 之前所有 token 的中间状态(叫 KV Cache)也读一遍;

然后做矩阵乘法,算出下一个 token。

第三步是计算,前两步是搬运。

搬运的总耗时通常超过计算的总耗时

这个事实几乎适用于所有 100 亿参数以上的模型。

一个 700 亿参数的开源模型(Llama 3 70B),FP16 精度下模型权重约 140 GB。生成每个 token,都要把这 140 GB 从 HBM 读到 GPU 计算核心。要保证流畅生成 token——比如每秒 30 个,HBM 到计算核心之间的带宽必须能支撑每秒约 4.2 TB 的搬运量。这就是为什么 H100 SXM5 的 HBM 带宽设在 3.35 TB/s——低于这个数字,70B 模型推理就开始卡。

带宽是一回事,容量是另一回事。如果一个模型的总参数量超过单 GPU 的 HBM 容量,就必须把模型切成多份分散到多个 GPU 上跑,这叫张量并行。但模型一切,原本一次能算完的事变成多次,GPU 之间需要相互通信传中间结果——通信开销是新的瓶颈。

所以容量和带宽都重要,但侧重不同。

容量决定:模型能不能装在单卡上?要不要切分?切了之后通信开销有多大?

带宽决定:装下了之后,吐出 token 的速度有多快?延迟有多低?

在应对推理的需求上,NVIDIA和AMD走上了不同的路:

NVIDIA 最新旗舰 Rubin R200,单 GPU 配 288 GB HBM4,内存带宽 22 TB/s;

AMD 下一代 MI455X,单 GPU 配 432 GB HBM4,内存带宽 19.6 TB/s。

AMD 容量多 50%,带宽反而少 11%。

NVIDIA 押带宽——把数据搬运得更快。

AMD 押容量——让模型本体不必拆开放。

两家的目标客户群侧重不同:AMD 瞄准要跑 405B、671B 这种超大模型的开源派;NVIDIA 瞄准要做高并发低延迟商用推理的 SaaS 派。

而最近在走IPO的新玩家Cerebras WSE-3,单芯片只有 44 GB 片上 SRAM,但内存带宽高达 21 PB/s——是 NVIDIA Rubin 的 950 倍。容量小 7 倍换来带宽多三个数量级。Cerebras 的判断和 NVIDIA、AMD 又不一样。

2、推理让两个瓶颈同时变得更紧张

这是本人《AI投资地图》第12篇,全文历数数天,历经N稿,各种删减,仍有1.8万字,建议先转发收藏。推荐将本号“设为星标”。

直接前往公众号看,这边排版是灾难

《HBM全景研报:从训练到推理,主角不再是GPU》

https://mp.weixin.qq.com/s/ch6D62c-4OsOllHfzf4jMA


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

BTCdayu的精选文章

1小时前
《前谷歌TPU架构师:AI 的真瓶颈不是算力》这场两小时的访谈里
2天前
推特中文圈应该会大变天了
2天前
今天是一篇高通的研报
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatarBTCdayu
1小时前
《前谷歌TPU架构师:AI 的真瓶颈不是算力》这场两小时的访谈里
avatar
avatarPhyrex
8小时前
今天 WTI 的油价略微下调了一些
avatar
avatarPhyrex
9小时前
周三 $BTC 现货 ETF 的数据仍然是在小幅的震荡
avatar
avatarPhyrex
10小时前
这次 Websea 的情况和 2023年 新加坡 Token2049 期间关门的 JPEX交易所 很像
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接