六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

AMD新AI芯片MI350X/MI400強勢挑戰Nvidia神經網絡霸主!

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

AMD進軍AI戰場:MI350X、MI355X、MI400與MI500系列全方位剖析

AMD AI GPU封面圖

導言

過去半年,AMD一直處於「戰時狀態」,全力追趕Nvidia,務求在AI運算市場搶佔一席位。於Advancing AI 2025活動上,AMD發佈了MI350X及MI355X GPU,針對中小型大型語言模型(LLM)推理場景,總體擁有成本(TCO)上有望與Nvidia HGX B200競爭。不過,AMD雖然營造強烈的市場推廣氣氛,但MI355X其實並非真正的「機櫃級」產品,無法與Nvidia GB200 NVL72於前沿模型推理或訓練上正面對抗。

真正能與Nvidia機櫃級方案叫板的,是預計2026年下半年面世的MI400系列。值得留意,AMD將原本的「IF over Ethernet」協定改名為「UALink Protocol over Ethernet」,但這只屬市場包裝,並非真正的UALink。

本文將深入分析AMD新產品的競爭力、TCO、雲端客戶策略,以及Nvidia DGX Lepton Marketplace如何動搖現有雲端格局,為AMD創造新機遇。

重點摘要

1. MI355X針對中小型模型推理與HGX B200有競爭力,但無法挑戰GB200 NVL72。
2. MI355X的128 GPU「機櫃級」方案實際只支援8顆GPU連接,遠遜於NVL72的72顆,推理效能亦不及。
3. MI355X在集體運算(collective)表現與HGX B200相若,但比NVL72慢18倍或以上。
4. AMD Developer Cloud將MI300 GPU租用價降至$1.99/小時,與Nvidia具競爭力。
5. Nvidia DGX Lepton Marketplace令不少Neocloud不滿,為AMD打開合作窗口。
6. AMD仿效Nvidia,以財務手段支持雲端生態,回租GPU推動用戶採用。
7. MI400系列將成為可與NVL144抗衡的機櫃級方案,預計2026年下半年面世。
8. AMD正檢討AI工程師薪酬,期望與市場看齊,吸引人才。
9. MI400並非採用真正的UALink網絡,而是將Infinity Fabric over Ethernet重新包裝。
10. MI400將採用Broadcom Tomahawk 6交換機,因Marvell及Astera Labs的UALink交換機未及時推出。
11. 即使如此,MI400的網絡帶寬與NVL144 NVLink相若,支援72顆GPU規模。
12. 2027年底,AMD將推出MI500 UAL256,支援256顆GPU,規模超越NVL576的144顆。

MI350X及MI355X規格剖析

MI350X及MI355X均屬CDNA4架構,前者為1000W空冷版本,後者則為1400W,兼容空冷及液冷。雖然MI355X功耗高40%,但理論效能僅比MI350X快不足10%。實際運作時,受限於功耗,兩者效能差距或會拉大。

在BF16/FP8/FP4等數據類型,MI350X/MI355X與HGX B200在紙面上旗鼓相當。特別是FP6,MI355X理論上比B200快2.2倍,實際效能則按功耗情況而定。值得注意,Nvidia B300為提升FP4推理,減少了FP64及int8核心,令FP4效能領先MI355X 30%,且功耗低200W。

內存方面,MI350/355X的HBM容量達288GB,遠超B300的180GB,單機推理優勢明顯。但在多節點並行及解耦預填充時,內存帶寬更為關鍵。

網絡方面,MI350/355X的XGMI協定通過超頻提升至76.8GB/s,但仍不及Nvidia HGX B200/B300的全互聯拓撲。機櫃級解決方案方面,Nvidia GB200 NVL72單一規模可連接72顆GPU,AMD僅8顆,差距明顯。

AMD與Nvidia規格對比

在4-bit浮點格式上,MI355X只支援OCP MX4,每32元素一個微指數,Nvidia則同時支援MX4及NVFP4,後者每16元素為一組,數值精度及量化靈活度更高。

MI355X網絡拓撲

與HGX B200 NVL8的TCO競爭力

MI355X在自有集群下TCO比HGX B200低33%,HBM容量更大,FP8/FP4效能稍高,FP6效能翻倍。軟件持續改進下,預期TCO優勢會進一步擴大。不過,MI355X僅能與Nvidia「經濟型」HGX B200/B300空冷產品競爭,無法正面挑戰旗艦GB200 NVL72。

TCO對比表

Nvidia DGX Lepton顛覆Neocloud格局

Nvidia於GTC Paris推介DGX Lepton Marketplace,目標是將AI運算商品化,讓用戶可在多雲之間無縫切換,標準化體驗。這對僅需推理或小規模訓練的用戶極具吸引力,但卻壓縮Neocloud利潤,令其成為低毛利的「打工仔」。儘管如此,對消費者而言,這意味著更高的性價比。

不少Neocloud對Lepton表示不滿,但為保持與Nvidia良好關係,仍被迫參與。這為AMD提供了擴展Neocloud合作的契機,許多雲服務商開始尋找替代方案,減低對單一供應商的依賴。

MI355X非真正機櫃級方案——市場包裝之辯

AMD聲稱MI355X是「機櫃級方案」,實則只是把16台UBB8伺服器放在同一機櫃,每台僅8顆GPU互聯,並無跨櫃一致性網絡。相比之下,Nvidia GB200 NVL72單一網絡域可連接72顆GPU,集體運算效能領先18倍。

機櫃級方案對比

推理及訓練時,MI355X的all-to-all通訊比GB200 NVL72慢18倍,甚至比HGX B300 NVL8慢2倍,明顯非同級產品。

集體通訊效能對比

雲端及AI實驗室採用情況

雖然MI355X的市場定位存疑,但其TCO及效能優勢已獲得超大規模雲端及AI實驗室青睞。AWS首次大規模採購AMD GPU,Meta亦開始用於訓練,OpenAI、x.AI等亦逐步擴展AMD應用。Oracle計劃部署3萬台MI355X,Google GCP亦有洽談中。唯一較為保守的是Microsoft,目前只小量採購,未來或會轉向MI400。

AMD解決Neocloud租賃市場劣勢

現時專注AMD的Neocloud數量遠少於Nvidia,導致AMD GPU租賃價格偏高,性價比受損。以H200為例,月租約$2.50/小時,MI300X要低於$2.10-$2.40/小時才具競爭力,但市面上難以達標。AMD已意識到,必須建立健康的Neocloud生態,降低進入門檻,提升用戶及開發者參與度。

GPU租賃TCO對比

加速建設AMD Neocloud生態

近月來,AMD積極推動Neocloud生態,與AWS、OCI、Digital Ocean等合作,通過回租GPU降低雲端風險,鼓勵部署AMD方案。這策略有助壓低租賃價格,提高市場滲透率。AMD Developer Cloud亦以$1.99/小時的低價吸引開發者,推動生態發展。

AMD Developer Cloud

ROCm軟件生態進步

AMD發佈ROCm 7,推理效能比上一代提升3.5倍,對比Nvidia B200亦有1.3倍優勢(官方數據,待驗證)。ROCm現已支援vLLM、SGLang、llm-d等框架,並與Triton Distributed等新技術合作。不過,與Nvidia Dynamo KVCache相比,ROCm在分布式推理仍有不足。

ROCm 7.0的RCCL通訊庫仍是Nvidia NCCL的分支,成為多節點能力瓶頸。業界普遍認為,AMD需重寫自家通訊庫,才能真正打破軟件壁壘。

PyTorch持續集成(CI)與測試

AMD已著手將MI355X納入PyTorch CI自動測試,雖然相關PR尚未合併,但比Nvidia Blackwell更早行動。Nvidia則計劃捐贈48台B200給PyTorch基金會,加強開源CI投入。

MLPerf訓練基準測試

AMD首次提交MLPerf單節點Llama2 70B LoRA微調及BERT訓練測試,證明其訓練能力。未來應參與更多多節點實測,提升可信度。

AMD MLPerf訓練結果

MIG分割功能的爭議

AMD正投入大量資源開發GPU分割(MIG)功能,將一張GPU分拆為8張小GPU,但主流客戶如Meta、OpenAI、x.AI均無此需求,反而更重視多節點推理支援。部分工程資源或應更有效分配。

GPU分割示意

MI355X晶片製程及架構優化

AMD利用過去兩年優化chiplet架構,將基底AID由四分區合併為兩塊,提升跨chiplet通訊效率,減低功耗及面積浪費。不過,這對3D封裝良率要求更高,對TSMC SoIC製程成熟度有信心。新一代共1850億電晶體,較MI300提升21%。

MI355X晶片照

CDNA4微架構轉型

CDNA4進一步向AI優化,計算單元數目減少16%,本地數據共享容量提升1.5倍,矩陣核心效能倍增。FP8/FP4吞吐量分別為FP16的2倍和4倍,但缺乏Nvidia Blackwell的異步特性及數據加速硬件,能源效率仍有差距。

開發者內容及RCCL通訊庫

AMD開發者大會內容未如理想,缺少對RCCL、Composable Kernels等重點庫的深入講解。RCCL雖支援400G Ultra Ethernet,但本質仍是NCCL分支,多節點能力有待突破。

AI工程師薪酬調整

業界普遍認為AMD AI工程師薪酬低於市場,僅新招聘及收購團隊例外。公司已將此列為優先事項,期望未來能吸引及留住頂尖人才。

MI400系列I/O靈活性(節錄)

(原文未完,節錄至此。)

編輯評論與啟發性觀點

AMD這份長篇報告,既是技術細節的深度剖析,也是行業競爭格局的全景描繪。值得注意的是,AMD明顯意識到,單靠硬件規格已不足以打動市場,生態、軟件、價格、財務操作,甚至工程師薪酬,都是戰場。

從香港科技產業的角度觀察,AMD這波策略轉型反映了全球半導體競爭的「新常態」——即便是傳統硬件巨頭,也必須主動構建生態、彈性定價、與開發者深度互動,才能突破「Nvidia壟斷」的天花板。

另一方面,Nvidia DGX Lepton Marketplace的「平台化」思維,無疑對傳統雲服務供應商是一大衝擊,這種「Uber化」的競爭邏輯,未來勢必會蔓延至更多科技領域,香港本地雲端及AI初創亦需提早布局,避免成為國際巨頭壓縮利潤的「打工仔」。

最後,AMD在技術路線、產業合作、薪酬政策等多方面的調整,正好說明:AI時代的競爭,已不再是單一產品或技術的較量,而是整個價值鏈、供應鏈及人才鏈的綜合競賽。香港無論是科研、創業還是政策制定,都應以此為鑑,積極參與全球生態建設,才能在AI新浪潮中佔據一席之地。

✈️ Mastercard 尊享優惠|預訂機票+酒店減高達 HK$200

2025 年 7 月 4 日 至 10 月 2 日
逢星期五於 Trip.com 使用 Mastercard 預訂機票或酒店,
輸入指定優惠代碼即可享折扣。數量有限,先到先得!

即刻搶代碼 🔗