Google Cloud推AI勁嘢：72核GPU Blackwell加速器登場！

zero comment

谷歌雲端推出首款Blackwell AI GPU驅動的實例——72個GB200配72個B200 GPU和36個Grace CPU

谷歌雲端最近推出了其A4X虛擬機，這些虛擬機由基於Nvidia的GB200的NVL72系統驅動。這些機架級系統配備72個B200 GPU和36個Grace CPU。根據谷歌的說法，這些新虛擬機旨在應對大型AI工作負載，例如具有長上下文窗口的大型語言模型、推理模型，以及需要大量並發的場景。谷歌還提供A4虛擬機，專為一般AI訓練和開發設計。

谷歌的A4X虛擬機利用了Nvidia的NVL72系統，該系統擁有72個B200 GPU和36個72核的Grace CPU（2,596個基於Armv9的Neovers V2核心），並通過NVLinks互聯。這使得所有72個GPU之間可以無縫共享內存，從而提高響應時間和推理準確性。該系統還支持並發推理請求，適合多模態AI應用。

在性能方面，A4X虛擬機的訓練效率是使用Nvidia的H100 GPU的舊版A3虛擬機的四倍。尤其是，谷歌雲端承諾每個GB200 NVL72系統的計算能力超過1 ExaFLOPS，潛在產生1440 FP8/INT8/FP6 PetaFLOPS的性能，適合同時處理訓練和推理工作負載。

A4X虛擬機還配備了基於Nvidia ConnectX-7 NIC的Titanium ML網絡適配器，確保快速、安全和可擴展的機器學習性能，並實現72個400 Gbps的無間斷低延遲GPU到GPU流量，達到28.8 Tbps。谷歌雲端的Jupiter網絡架構使得NVL72域之間可以無縫連接，支持擴展到數萬個Blackwell GPU的非阻塞集群。特別是，AI團隊可以通過谷歌Kubernetes Engine（GKE）部署A4X虛擬機，該系統支持最多65,000個節點的集群。谷歌還宣傳了先進的共享和管道技術，以最大化大型部署中GPU的利用率。

A4X虛擬機與谷歌雲端服務無縫集成。谷歌支持Cloud Storage FUSE，這使得訓練數據的通過量提高了2.9倍，而Hyperdisk ML則加快了模型加載時間，達到11.9倍。

谷歌雲端現在提供A4和A4X虛擬機，針對不同的AI工作負載進行了優化。A4X以GB200 NVL72系統為基礎，專注於大規模AI、長上下文語言模型和高並發應用；而A4則由B200 GPU和未知處理器驅動，更適合一般AI訓練和微調。A4X和A4的定價尚未公布。

在當前AI技術日新月異的背景下，谷歌雲端的這一舉措顯示出其對於大規模AI應用的重視。隨著AI模型的複雜性和計算需求不斷增加，這樣的高性能虛擬機不僅能夠滿足市場的需求，還能進一步推動行業的創新。未來，隨著更多企業採用這些先進的技術，AI將在各行各業中發揮越來越重要的作用，值得我們持續關注。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。