輝達正式發布最新一代AI加速器產品-Blackwell架構下的B200,為目前GPU產品線的旗艦產品,B200性能的創新,在台積電製程領先技術協助下,針對大規模AI模型應用進行強化,在AI領域掀起新一輪技術革新。惟算力倍增恐已是單晶片提升極限,未來將仰賴先進封裝達成算力堆疊。
B200採多晶片封裝技術,單個GPU擁有20,480個cuda核心,較前代Hopper架構之H100提升超過2.5倍;據指出,H100的晶片面積為814mm2,而ASML的EUV曝光尺寸理論最大值為26x33,就是858mm2。換言之,以現有光罩的尺寸和光刻技術,沒辦法做出一個比這個更大的die size,所以索性把兩個晶片拼接,做成一個GPU。
核心數量也得益於製程工藝技術提升,兩個10,240核心的GPU以互聯技術結合,採用「two-in-one」設計,突破單顆GPU晶片面積瓶頸。市場人士表示,面對AI大模型的來勢洶洶,輝達已透過台積電先進封裝、打破過往線性的進化節奏,相較於先進封裝,B200製程仍停留在台積電4奈米,只不過升級為N4P。
另一個亮點於B200在GPU間通訊方式的強化。B200採用了輝達第四代NVLink interconnect,單個NVLink Switch最高可支持576個GPU互聯,頻寬高達1.8TB/s。全新的GPU互聯技術,為未來大規模分布式AI訓練提供強而有力的硬體支援。
值得一提的是,B200在數據類型支持上也得到了優化。除了延續Hopper架構的FP32、FP16等常見數據類型外,B200新增加了對FP4等更低精度運算的支持。這不僅提高了推理效率,同時也為大規模模型訓練創造了條件。
B200的推出標誌著輝達在AI加速器領域掀起新一輪技術革新。無論是在GPU規模、記憶體容量、通訊頻寬等關鍵指標上,B200都有大幅提升,成為未來大規模AI應用的硬體基礎。
輝達的野心很大,從來都不只是單純想做一個賣AI晶片的公司,而是更大的目標-AI時代算力方案解決商;或者說輝達改變AI商業模式,想賣的不只是鏟子,而是整座礦山。