RamenPanda|2026年05月25日 03:04
打破”内存墙”:光互连技术现身GPU-HBM封装
作为AI半导体领域长期挑战之一——“内存墙”问题的一种解决方案,国内外存储与封装行业正在权衡一种将GPU与高带宽内存(HBM)解耦、分别独立封装的方案。其核心思路是,把迄今为止一直紧挨着GPU安装的HBM移开一定距离,再用光(光学)来弥合这段间隙,从而能够安装比现今多出数倍的HBM。
22日,一位国内大型存储厂商的研究人员表示:“我们目前在扩展HBM带宽与容量方面遇到困难,因此正在与客户探讨一项方案,即通过光互连来突破GPU的岸线(shoreline)限制,从而装载更多HBM。“岸线指的是芯片周边的长度。
在当今的AI计算环境中,拖累计算效率的关键因素是存储芯片的数据传输速度。虽然GPU性能每一代都突飞猛进,但内存存储与供给数据的速度却未能跟上节奏——由此形成了一道结构性的性能壁垒,即内存墙。拥有宽阔数据通道的HBM问世,扑灭了眼前这把火,但批评者仍不断指出,其带宽与传输速度依然不足以应对AI算力的爆炸式增长。
迄今为止,业界一直专注于将HBM越堆越高,以便在有限的占用面积内提升内存容量与带宽。但随着堆叠层数越过12层、16层迈向20层乃至更高,工艺难度呈指数级上升。技术撞上了物理极限,其中包括满足固定高度规格的难度日益加大。垂直堆叠已抵达一个拐点——以至于JEDEC标准组织已经放宽了其HBM高度规格。
更大的问题在于,如果堆叠层数无法再提高,那么替代方案就是在GPU周围横向增加更多HBM——但这同样行不通。在当前的2.5D封装结构中,GPU与HBM紧密相邻地安装在同一块基板上。在这种结构内,可放置的HBM数量受到GPU芯片周边长度——即岸线——这一有限值的严格制约。即便希望放置更多HBM,物理上也无处安放,致使业界陷入结构性僵局。
如今半导体行业涌现出的替代方案,是将GPU与HBM分离并分别独立封装。它颠覆了”组件必须彼此靠近以最小化数据传输时间”这一传统芯片设计原则。该方案不再让两块芯片相邻,而是将它们彼此拉开间距,并用速度上压倒性领先的光信号将其连接起来,以克服由此增加的物理距离。
将HBM在电路板内稍稍移离GPU,便使设计摆脱了GPU岸线的约束。空间限制一旦消失,就能将远多于现今的HBM横向铺开、塞进板内——是当下数倍之多——而无需把堆叠高度推向极限。这意味着AI加速器系统的总内存容量与数据带宽将急剧扩张,其规模与现有系统不可同日而语。
“正探讨将HBM置于GPU下方”……外形规格或将改变
业界目前就究竟将HBM放置在GPU电路板内何处,提出了一系列架构设计方案。
这位存储研究人员表示:“正在讨论的选项,涵盖了从广泛利用GPU紧邻周边的空间,到将HBM隔离安置在GPU电路板下方等多种方案。“他补充道:“在后一种情况下——即将其隔离安置于GPU电路板下方——主板将不得不在长度方向上延伸,因此我们正与GPU厂商探讨整体外形规格变更的可能。“具体而言,HBM或许会从数厘米开外环绕GPU,又或许会在电路板中央开辟出一块独立的HBM区域。
他说:“我们正在讨论最优布局,保持每一种可能性的开放。“他还表示:“目前尚未有任何方案被确定为正式路线图,但作为面向下一代AI加速器的前期研究的一部分,我们正在与合作伙伴洽谈之中。”
外包半导体封装与测试(OSAT)行业也在密切关注这一趋势。一家全球OSAT企业的高管表示:“光互连是一条明确的发展轨迹,唯一的问题是时机。“他预测:“机架间(rack-to-rack)与服务器间(server-to-server)的连接会率先光学化,随后板内的芯片间(chip-to-chip)连接将紧随其后。“他补充道:“较大的单元会先用光来连接,但光学研究推进得如此之快,这一天或许并不遥远。”
从技术上讲,连接GPU与HBM的光互连技术,与数据中心内连接服务器与服务器的技术共享同一套底层原理。区别在于,要把曾用于大型设备间通信的光转换技术,缩小到单块电路板与芯片组那样的微观尺度,存在很高的技术门槛。
一家国内共封装光学(CPO)元件开发商的高管解释道:“随着HBM堆叠高度逼近极限,业界正在讨论将内存横向铺开,以最大化物理上可安装的数量。“他补充说:“其原理与传统的数据中心光互连相同,但必须在受限的板内空间运作的HBM光链路,要求光学元件被微缩到远小得多的尺寸、并实现远高得多的集成密度——因此技术难度更大。”(RamenPanda)
分享至:
脉络
热门快讯
APP下载
X
Telegram
复制链接