六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

華為AI晶片挑戰NVIDIA,中國突圍?

華為CloudMatrix 384 AI超級集群超越Nvidia GB200:以規模取勝,能耗為代價

華為總部大樓

華為最新發佈的CloudMatrix 384 AI超級集群,標榜以大規模部署自家Ascend 910C處理器,直接向Nvidia旗艦GB200 NVL72架構挑戰。這個系統於美國政府進一步限制Nvidia H20 AI晶片出口中國後(約於4月15日)公佈,明顯是要填補中國AI算力缺口,成為本土替代方案。

在多項理論性能指標上,CloudMatrix 384甚至超越了Nvidia目前的頂級GB200 NVL72系統。不過,華為選擇以「規模」而非「矽片先進度」取勝,這種策略下,能耗大幅提升成為明顯代價。

CloudMatrix 384的基礎是Ascend 910C雙晶片設計,每顆可輸出780 TFLOPS(BF16格式,AI常用數值型式)。全系統整合384顆加速器,據SemiAnalysis估算,總BF16算力達到300 PFLOPS,遠超Nvidia 72顆GPU的GB200 NVL72所標榜的約180 PFLOPS。記憶體方面,華為方案提供49.2 TB HBM(高頻寬記憶體)容量及1229 TB/s總頻寬,對比Nvidia分別只有13.8 TB和576 TB/s。

以數量壓倒質素,能耗成最大短板

這種性能優勢,主要源於加速器數量超過Nvidia五倍,但總系統功耗亦暴增。CloudMatrix 384全機需559千瓦(kW)電力,幾乎是GB200 NVL72(145kW)的四倍。

換算下來,華為系統每TFLOP算力的能效比Nvidia差2.3倍,每TB/s記憶體頻寬的能效也差1.8倍。至於每TB HBM容量的能效,華為也多用約1.1倍電力。

這其實反映中國當前的現實:高階、節能晶片受美國出口管制影響難以取得,但國內電力資源充裕且便宜。據報導,2025年初中國部分地區電價已跌至每兆瓦時56美元,相比2022年高峰時的91美元大降,令高能耗的AI集群方案在中國更具經濟可行性。

全光網絡架構:光纖取代銅線成集群骨幹

CloudMatrix 384的網絡架構以全光互聯為核心,無論機櫃內外,384顆Ascend 910C處理器都以全互連(all-to-all mesh)方式連接。這套系統動用了6,912個800Gbps的LPO(Linear Pluggable Optics)光收發模組。

LPO技術被業界認為比傳統DSP光模組在短距離數據中心應用下更省電,雖然如此大規模光網絡的訊號完整性管理亦是挑戰。總內部帶寬超過5.5 PBps(Peta bits per second),據SemiAnalysis計算,華為方案的集群內帶寬是Nvidia的2.1倍,跨集群帶寬更達5.3倍。

這套16個機櫃的設計(12個運算櫃+4個網絡櫃)與Nvidia未上市的DGX H100 NVL256“Ranger”平台相似,後者因複雜及成本過高未能量產。

制裁下的供應鏈突破

這種策略能否持續,關鍵在於華為能否在美國嚴格出口管制下取得關鍵零件。雖然中國SMIC能生產7納米級晶片,但目前Ascend 910C多數仍用台積電代工。據報華為透過Sophgo等中間商繞過直接制裁,取得足夠晶圓,預計2025年前可組裝超過一百萬顆910C。

至於關鍵的HBM2E記憶體,華為則透過三星、CoAsia Electronics等第三方流入中國。流程包括Faraday Technology設計、SPIL封裝,然後拆解再用於華為910C模組。這些繞道手法突顯了科技出口管制執行上的困難。

中國AI競賽下的戰略豪賭

CloudMatrix 384的推出時機極為關鍵。美國封殺Nvidia H20後,中國市場專屬的合規AI GPU頓時消失。H20本屬Nvidia為中國特製、性能較低的產品,甚至比華為910B還弱,但禁令令Nvidia為此庫存要計提55億美元損失。

這一政策空窗,讓華為不僅以CloudMatrix填補,更同時發佈新一代Ascend 920晶片。Nvidia CEO黃仁勳更在禁令後親赴北京,公開表示希望繼續與中國合作。

分析員Patrick Moorhead直言:「中國企業將直接轉用華為。」這亦吻合中國加快本土半導體自給的國策,如逐步淘汰外國通訊晶片、以及“國家大基金”推動本土半導體產業。華為CloudMatrix 384展示了在地緣政治夾縫下,中國即使犧牲能效,也能組建具競爭力的AI算力平台,並在灰色供應鏈中尋找突破。

編輯評論:華為CloudMatrix 384,是中國AI自主路上的「能耗豪賭」

華為CloudMatrix 384的出現,標誌著中國AI產業在外部壓力下的「自力更生」新階段。它以「用電力換算力」的思路,直接無視能效指標,靠大規模堆砌硬件,硬生生在算力上壓倒Nvidia——這種戰略背後,是中國電力成本低、能源供應穩定的特有國情。

但這種「規模壓倒質素」的模式,真的可長可久嗎?一方面,這讓中國在短期內不至於在AI競賽上被「卡脖子」,但長遠來說,無論是環保壓力、運營成本,還是技術升級的可持續性,都會成為必須面對的難題。尤其在全球碳中和、節能減排的大趨勢下,「用電力換技術」的路線註定只是權宜之計,難以成為最終答案。

另一方面,CloudMatrix 384背後的供應鏈繞道,亦反映出全球科技產業「你中有我、我中有你」的複雜現實。美國雖然不斷加碼出口管制,但真正做到「滴水不漏」幾乎不可能。這種「貓捉老鼠」的遊戲,或許會推動中國半導體產業加快自立,但短期內,全球供應鏈的灰色地帶仍會繼續存在。

最後,這場「AI算力戰」已經不單是技術之爭,更是地緣政治、產業安全、國家戰略的多重較量。華為CloudMatrix 384雖然在能效上犧牲不少,但在中國當下的背景下,這種「能耗豪賭」未嘗不是一種現實且有效的選擇。不過,當中國AI產業真正邁向世界舞台時,能否從「堆規模」到「拼效率」,才是真正考驗的開始。

Chat Icon