谷歌推出铁木TPU,配备9,216芯片模块和液冷系统

CN
14小时前

谷歌在2025年4月的Google Cloud Next上预览了Ironwood,并现在扩大访问,将该芯片定位为为“推理时代”量身定制的定制硅芯片,在这个时代,模型预计将在全球云区域实时响应、推理和生成。

根据CNBC的报道,此举正好融入了超大规模云服务商之间的更广泛权力游戏,他们竞相拥有从数据中心到开发工具包的AI堆栈。在底层,Ironwood依赖于3D环形互连、液体冷却以维持负载,以及改进的Sparsecore,以加速超大嵌入的排名、推荐、金融和科学计算。

它的设计旨在最小化数据移动和通信瓶颈——这两个因素通常限制多芯片作业的吞吐量。原始数据旨在引起关注:每个芯片可达4,614 TFLOPs(FP8),192 GB的HBM,带宽为7.37 TB/s,以及1.2 TB/s的双向芯片间带宽。Pod的规模从256个芯片扩展到9,216个芯片配置,提供42.5 exaflops(FP8)的计算,完整Pod的功耗约为10 MW,液体冷却使得持续性能显著高于空气冷却。

谷歌表示,Ironwood在整体AI吞吐量上比之前的Trillium(TPU v6)快4倍以上,并且每瓦特的性能大约提高了2倍——同时其功率效率接近2018年首款Cloud TPU的30倍。在最大化的形式下,该公司声称在FP8 exaflops的测量中,相较于顶级超级计算机如El Capitan具有计算优势。方法论总是重要的,但意图是明确的。

虽然它可以进行训练,但Ironwood的重点在于大型语言模型和专家混合系统的推理——正是现在从北美到欧洲和亚太地区涌入数据中心的高QPS、低延迟工作。想想聊天机器人、代理、Gemini级模型,以及需要快速内存和紧密Pod规模同步的高维搜索和推荐系统管道。

集成通过谷歌云的AI超级计算机实现——将硬件与Pathways等软件配对,以协调跨数千个芯片的分布式计算。该堆栈已经支持从搜索到Gmail的消费者和企业服务,而Ironwood则作为希望在GPU旁边获得托管、TPU原生路径的客户的升级路径。

其中蕴含着市场信息:谷歌通过论证领域特定TPU在某些AI任务上的性价比和能耗上可以超越通用GPU,挑战Nvidia的主导地位。CNBC的报道指出,早期采用者包括Anthropic,计划在百万TPU规模上部署Claude——这表明推理的规模正在变得多么庞大。

Alphabet首席执行官Sundar Pichai将需求框定为关键收入驱动因素,提到2025年第三季度谷歌云收入增长34%,达到151.5亿美元,与AI建设相关的资本支出总计930亿美元。“我们看到对我们的AI基础设施产品有实质性的需求……我们正在投资以满足这一需求,”他说,并指出今年签署的十亿美元交易数量超过了前两年总和。

Ironwood的更广泛可用性预计将在2025年晚些时候通过谷歌云推出,目前已开放访问请求。对于在美国、欧洲和亚太地区权衡电力预算、机架密度和延迟目标的企业来说,问题不再是炒作,而是Ironwood的Pod规模FP8计算和冷却特性是否与他们的生产工作负载相匹配。

  • Ironwood将在哪里可用? 通过谷歌云在全球区域,包括北美、欧洲和亚太地区。
  • 何时开始访问? 更广泛的可用性将在未来几周开始,2025年晚些时候全面推出。
  • 它是为哪些工作负载构建的? 针对LLMs、MoEs、搜索、推荐、金融和科学计算的高吞吐量推理。
  • 与之前的TPU相比如何? 谷歌表示,Ironwood的吞吐量比Trillium高4倍,每瓦特性能提高2倍。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接