華為Ascend 910C AI晶片即將大規模出貨 中國AI硬件自主化加速
華為預計最快下個月開始大規模出貨Ascend 910C人工智能晶片,據知情人士透露,雖然現時已有少量出貨,但這次大規模部署,對於中國企業尋找美國半導體以外的替代方案,意義重大。
這個動作正值中國開發者獲取Nvidia硬件愈來愈困難之際。美國政府最近通知Nvidia,向中國出售H20 AI晶片必須申請出口許可,導致中國開發者積極尋找能夠支持大規模AI訓練及推理運算的本地選項。
Ascend 910C雖然未採用最先進的製程技術,但卻是一個務實的「繞道」方案。這款晶片基本上是前代910B的雙封裝版本,整合兩顆處理器,令效能及記憶體容量倍增。據了解,910C的表現已可媲美Nvidia的H100。
華為並未依賴尖端製造工藝,而是採用「蠻力」方式,將多顆晶片及高速光學互聯結合,大幅提升運算效能。這正是華為CloudMatrix 384系統的核心理念——一個全機架級AI平台,專為訓練大型模型而設。
CloudMatrix 384系統包含384顆Ascend 910C晶片,分布於16個機架(12個運算機架、4個網絡機架)。與一般採用銅線連接的系統不同,華為平台採用光學互聯,令系統各部件之間可實現極高頻寬通訊。根據SemiAnalysis分析,這個架構用上6,912個800G LPO光學收發器,建構出全光網狀結構。
這種設計讓華為系統能夠提供約300 petaFLOPs(BF16運算力),超越Nvidia GB200 NVL72系統的約180 petaFLOPs。CloudMatrix在記憶體頻寬及容量方面亦有明顯優勢,分別高出Nvidia超過一倍及3.6倍。
但這些效能提升並非沒有代價。預計華為系統每次浮點運算的能源效率比Nvidia GB200低2.3倍,單位記憶體頻寬及容量的能效亦較低。即使每瓦效能不及Nvidia,華為系統仍能為訓練先進AI模型提供必要基建。
據悉,中國最大晶圓代工廠中芯國際(SMIC)正以7nm N+2製程生產910C部分主要元件。不過良率仍然令人關注,部分910C甚至用上台積電為中國公司Sophgo生產的晶片。華為則否認使用台積電產品。
美國商務部現正調查台積電與Sophgo的關係,因為早前發現華為910B處理器內含Sophgo設計、台積電生產的晶片。台積電重申,自2020年起已停止供貨華為,並一直遵守出口管制。
2023年底,華為已向部分科技公司提供910C早期樣品,並開始接受訂單。諮詢公司Albright Stonebridge Group認為,在美製晶片持續受出口限制下,910C將成為中國企業建構大型AI模型及推理平台的首選。
雖然Ascend 910C在能效及製程上未及Nvidia,但這反映出一個更廣泛的趨勢:中國科技企業正積極發展本土替代品,即使需要用較落後的方法達到相近效果。
隨著全球AI需求激增及出口限制收緊,華為能否在國內提供可擴展AI硬件方案,將有助塑造中國AI產業未來——尤其是在開發者尋求確保供應鏈穩定、降低地緣政治風險的情況下。
編輯評論:AI晶片自主化,技術「繞道」背後的中國野心
華為Ascend 910C的推出,絕不只是單純的產品升級,而是中國科技產業在地緣政治壓力下的一次集體「突圍」。過去中國高端AI算力嚴重依賴Nvidia等美國供應商,面對美國出口管制,華為的「蠻力疊加」策略,雖然製程不及對手先進,但通過堆疊、光互聯等工程手段,硬生生造出媲美甚至超越Nvidia旗艦產品的系統,這種「繞道」式技術突破,正是中國科技自立自強的縮影。
值得注意的是,華為這種以系統工程和組合創新來「補短板」的做法,或許會成為未來中國高端科技發展的常態。即使在單晶片設計、能效等方面落後,通過規模化、組合式架構,也能在特定應用場景下取得突破。這種策略對於香港及亞洲其他地區的科技企業亦有啟示——面對全球供應鏈風險,單靠追趕最尖端技術未必可行,如何善用現有資源、靈活組合,才是提升競爭力的關鍵。
然而,華為方案的能效劣勢亦提醒我們,技術「繞道」雖可短期突破,但長遠而言,製程、設計和材料科學的根本創新仍不可或缺。中國半導體產業要真正擺脫「卡脖子」困局,還需在基礎科研和高端製造上持續投入。
最後,這場AI硬件自主化浪潮,亦將改變全球AI產業格局。當中國有能力自給自足,甚至出口AI硬件時,世界會否出現「東西方AI生態分裂」?對於香港這個國際創科樞紐而言,如何在兩大陣營之間靈活穿梭,將是未來的重大挑戰與機遇。