谷歌全新TPU Ironwood集成9216颗芯片,单颗峰值算力达4614TFLOP

来源:爱集微 #谷歌# #TPU# #Ironwood#
2112

人工智能(AI)基础设施的军备竞赛正以前所未有的速度升级。在2025年Hot Chips大会上,谷歌公布了其下一代TPU平台Ironwood的更多细节,以及其在机架级的扩展能力。Ironwood于2025年4月发布,其卓越的性能飞跃再次提升了这场激烈的AI竞争的标准。

从TPU v4到Ironwood,谷歌在短短几年内将单芯片算力提升十倍以上,这反映了AI模型计算需求的爆炸式增长,以及芯片设计人员为满足这些需求所做的努力。

据报道,代号为Ironwood的第七代TPU架构的性能是当今最强大超级计算机的24倍。一个Ironwood Superpod将集成9216颗芯片,进一步扩大规模。

在2025年Hot Chips大会上,谷歌宣布单颗Ironwood芯片的峰值计算能力可达4614 TFLOP。这比2022年发布的TPU v4提升16倍以上,比2023年发布的TPU v5p提升近10倍。

Ironwood配备192GB高带宽存储器(HBM),带宽高达7.4TB/s。

2022年发布的TPU v4单颗芯片峰值计算能力为275 TFLOP,配备32GB HBM内存和1.2TB/s 带宽;而2023年推出的TPU v5p单颗芯片峰值计算能力为459 TFLOP,配备95GB HBM内存和2.8TB/s带宽。

TPU v4、TPU v5p和 Ironwood的Pod分别集成多达4096、8960 和9216颗独立芯片。Ironwood不仅是单芯片创新的突破,更是一个旨在实现极致可扩展性的全面系统级解决方案。

强大的芯片性能必须依靠精准的系统设计才能完全实现。为此,谷歌推出了Ironwood模块化、可扩展的架构,涵盖从芯片到机架再到Pod的各个环节。

该系统的核心是Ironwood SoC,它将四颗芯片集成在Ironwood PCBA主板上。16块这样的 PCBA 主板堆叠在一起,形成一个包含64颗芯片的Ironwood TPU机架。

为了实现更大规模的扩展,谷歌采用了其专有的芯片间互连(ICI)技术,结合使用PCB走线、铜缆和光纤链路,将多个机架连接成一个超级Pod。

在如此惊人的计算能力背后,存在着巨大的能耗和散热挑战。谷歌为Ironwood机架配备了高效的液冷系统,以解决这些问题。

Ironwood TPU可以说是谷歌迄今为止规模最大、性能最强的AI计算引擎。它部署在谷歌迄今为止最大的“超级计算机pod配置中。

这些芯片和系统设计面向AI训练和推理工作负载,尤其适用于混合专家(MoE)推理模型。

Ironwood TPU也是首个在其张量核心和矩阵数学单元中支持FP8计算的TPU。之前的TPU支持INT8格式的推理处理和BF16格式的训练。

此外,Ironwood芯片还配备了第三代SparseCore加速器,该加速器首次亮相于2023年的TPU v5p,并在2024年的Trillium芯片中得到进一步增强。SparseCore加速器最初的设计目的是加速使用嵌入进行跨用户类别推荐的推荐模型。(校对/赵月)

责编: 李梅
来源:爱集微 #谷歌# #TPU# #Ironwood#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...