GPU vs. TPU:兩者之間的主要分別
圖形晶片巨頭Nvidia最新推出的Blackwell Ultra GPU與搜尋巨頭Google的TPU v7 Ironwood處理器,在人工智能運算上採用了截然不同的設計路線,無論是在架構、效能還是成本方面都有顯著差異,這些差異可能會重新塑造AI基礎設施的格局,據BofA Securities分析師於近期報告指出。
從物理規格來看,Nvidia的GB300晶片體積較大,擁有2080億個晶體管,芯片面積達1600平方毫米,採用台積電4NP製程;而Google的TPU v7則有超過500億個晶體管,芯片面積約1200至1500平方毫米,使用更先進的台積電N3P製程。
內存方面,GB300配備了288 GB的HBM3e記憶體,帶寬達8 TB/s;TPU v7則為192 GB,帶寬7.4 TB/s。
在原始計算性能上,根據精度需求有所不同。針對FP4密集運算,GB300可達15 petaflops,TPU v7則不原生支持此精度。對於FP8密集運算,GB300達5 petaflops,而TPU v7則約為4.614 petaflops。
功耗及效率方面,GB300每顆晶片消耗約1.4千瓦,TPU則約0.85千瓦。就FP4工作負載而言,GB300的每瓦算力達10.71 teraflops,而TPU v7約為5.42 teraflops;但在FP8工作負載下,TPU v7的每瓦算力約5.42 teraflops,高於GB300的3.57 teraflops。
系統架構上,Nvidia採用Grace CPU搭配NVLink 5互連技術,提供每GPU 1.8 TB/s帶寬;Google則用Marvell Axion CPU與ICI mesh,帶寬為每TPU 1.2 TB/s。
擴展規模方面,GB300每機架支持72顆晶片,每pod(由8個機架組成)共576顆晶片,整體功耗約1兆瓦,單個機架耗電約120至130千瓦。TPU v7每機架支持64顆晶片,但一個pod可擴展至144個機架、9216顆晶片,耗電達10兆瓦。
在pod級別運算能力,GB300可提供FP4 8.64 exaflops及FP8 2.88 exaflops;TPU v7則在FP8工作負載下能達到42.5 exaflops。
整體擁有成本(TCO)因應用不同而異。根據美銀估算,GB300 NVL72晶片每小時成本約6.30美元,TPU v7內部使用約3.50美元,對外部客戶約4.38美元。換算至工作負載,GB300 FP4每小時成本約0.42美元,TPU v7內部使用為0.76美元,對外則約0.95美元。FP8工作負載下,GB300為1.26美元,TPU v7則同樣約0.76美元(內部)或0.95美元(外部)。
軟件兼容性方面,Nvidia支持CUDA、TensorRT-LLM、PyTorch、JAX及Triton;Google TPU則支持JAX/XLA、TensorFlow及新興的PyTorch/XLA。
報告補充指出,實際表現高度依賴具體工作負載、優化程度及生態系統支持。
—
評論與深入分析
這份對比報告深入揭示了GPU與TPU之間在硬件設計哲學上的根本差異。Nvidia的GB300明顯偏向於高性能和多用途,尤其是在FP4精度運算上具有明顯優勢,這對於需要超高精度計算的深度學習模型訓練而言十分關鍵。相反,Google的TPU v7則在FP8工作負載和大規模擴展能力上更具競爭力,尤其適合大規模推理和訓練任務,這與Google在雲端AI服務的需求高度契合。
功耗和能效的對比也反映出在不同精度需求下兩者的優勢互補。Nvidia在FP4層面能效更高,TPU在FP8層面則更勝一籌,這提示了用戶在選擇硬件時需根據自身AI應用的精度需求做出明智選擇。
此外,兩者在軟件生態的兼容性也展現了各自的生態系統優勢。Nvidia憑藉CUDA和PyTorch等成熟框架,仍然是深度學習開發者的首選,而Google TPU則更偏向TensorFlow和JAX用戶,這或將影響未來開發者社群的分布與發展。
從成本角度看,TPU的整體擴展能力和較低的單位成本使其在大規模部署中更具吸引力,但GB300的性能優勢和軟件靈活性亦不容忽視。這也意味著未來AI硬件市場將更加分化,企業需根據自身業務需求、預算和技術棧做出平衡。
總結來說,這場GPU與TPU的較量不僅是技術層面的競爭,更是生態系統和商業模式的較量。香港及全球AI產業應密切關注這兩大技術路線的演進,從而作出更具前瞻性的投資和研發決策。
以上文章由特價GPT API KEY所翻譯及撰寫。
