AMD新AI芯片MI350X/MI400強勢挑戰Nvidia神經網絡霸主！

zero comment

Ai Finance Tech

AMD進軍AI戰場：MI350X、MI355X、MI400與MI500系列全方位剖析

AMD AI GPU封面圖

導言

過去半年，AMD一直處於「戰時狀態」，全力追趕Nvidia，務求在AI運算市場搶佔一席位。於Advancing AI 2025活動上，AMD發佈了MI350X及MI355X GPU，針對中小型大型語言模型（LLM）推理場景，總體擁有成本（TCO）上有望與Nvidia HGX B200競爭。不過，AMD雖然營造強烈的市場推廣氣氛，但MI355X其實並非真正的「機櫃級」產品，無法與Nvidia GB200 NVL72於前沿模型推理或訓練上正面對抗。

真正能與Nvidia機櫃級方案叫板的，是預計2026年下半年面世的MI400系列。值得留意，AMD將原本的「IF over Ethernet」協定改名為「UALink Protocol over Ethernet」，但這只屬市場包裝，並非真正的UALink。

本文將深入分析AMD新產品的競爭力、TCO、雲端客戶策略，以及Nvidia DGX Lepton Marketplace如何動搖現有雲端格局，為AMD創造新機遇。

重點摘要

1. MI355X針對中小型模型推理與HGX B200有競爭力，但無法挑戰GB200 NVL72。
2. MI355X的128 GPU「機櫃級」方案實際只支援8顆GPU連接，遠遜於NVL72的72顆，推理效能亦不及。
3. MI355X在集體運算（collective）表現與HGX B200相若，但比NVL72慢18倍或以上。
4. AMD Developer Cloud將MI300 GPU租用價降至$1.99/小時，與Nvidia具競爭力。
5. Nvidia DGX Lepton Marketplace令不少Neocloud不滿，為AMD打開合作窗口。
6. AMD仿效Nvidia，以財務手段支持雲端生態，回租GPU推動用戶採用。
7. MI400系列將成為可與NVL144抗衡的機櫃級方案，預計2026年下半年面世。
8. AMD正檢討AI工程師薪酬，期望與市場看齊，吸引人才。
9. MI400並非採用真正的UALink網絡，而是將Infinity Fabric over Ethernet重新包裝。
10. MI400將採用Broadcom Tomahawk 6交換機，因Marvell及Astera Labs的UALink交換機未及時推出。
11. 即使如此，MI400的網絡帶寬與NVL144 NVLink相若，支援72顆GPU規模。
12. 2027年底，AMD將推出MI500 UAL256，支援256顆GPU，規模超越NVL576的144顆。

MI350X及MI355X規格剖析

MI350X及MI355X均屬CDNA4架構，前者為1000W空冷版本，後者則為1400W，兼容空冷及液冷。雖然MI355X功耗高40%，但理論效能僅比MI350X快不足10%。實際運作時，受限於功耗，兩者效能差距或會拉大。

在BF16/FP8/FP4等數據類型，MI350X/MI355X與HGX B200在紙面上旗鼓相當。特別是FP6，MI355X理論上比B200快2.2倍，實際效能則按功耗情況而定。值得注意，Nvidia B300為提升FP4推理，減少了FP64及int8核心，令FP4效能領先MI355X 30%，且功耗低200W。

內存方面，MI350/355X的HBM容量達288GB，遠超B300的180GB，單機推理優勢明顯。但在多節點並行及解耦預填充時，內存帶寬更為關鍵。

網絡方面，MI350/355X的XGMI協定通過超頻提升至76.8GB/s，但仍不及Nvidia HGX B200/B300的全互聯拓撲。機櫃級解決方案方面，Nvidia GB200 NVL72單一規模可連接72顆GPU，AMD僅8顆，差距明顯。

AMD與Nvidia規格對比

在4-bit浮點格式上，MI355X只支援OCP MX4，每32元素一個微指數，Nvidia則同時支援MX4及NVFP4，後者每16元素為一組，數值精度及量化靈活度更高。

MI355X網絡拓撲

與HGX B200 NVL8的TCO競爭力

MI355X在自有集群下TCO比HGX B200低33%，HBM容量更大，FP8/FP4效能稍高，FP6效能翻倍。軟件持續改進下，預期TCO優勢會進一步擴大。不過，MI355X僅能與Nvidia「經濟型」HGX B200/B300空冷產品競爭，無法正面挑戰旗艦GB200 NVL72。

TCO對比表

Nvidia DGX Lepton顛覆Neocloud格局

Nvidia於GTC Paris推介DGX Lepton Marketplace，目標是將AI運算商品化，讓用戶可在多雲之間無縫切換，標準化體驗。這對僅需推理或小規模訓練的用戶極具吸引力，但卻壓縮Neocloud利潤，令其成為低毛利的「打工仔」。儘管如此，對消費者而言，這意味著更高的性價比。

不少Neocloud對Lepton表示不滿，但為保持與Nvidia良好關係，仍被迫參與。這為AMD提供了擴展Neocloud合作的契機，許多雲服務商開始尋找替代方案，減低對單一供應商的依賴。

MI355X非真正機櫃級方案——市場包裝之辯

AMD聲稱MI355X是「機櫃級方案」，實則只是把16台UBB8伺服器放在同一機櫃，每台僅8顆GPU互聯，並無跨櫃一致性網絡。相比之下，Nvidia GB200 NVL72單一網絡域可連接72顆GPU，集體運算效能領先18倍。

機櫃級方案對比

推理及訓練時，MI355X的all-to-all通訊比GB200 NVL72慢18倍，甚至比HGX B300 NVL8慢2倍，明顯非同級產品。

集體通訊效能對比

雲端及AI實驗室採用情況

雖然MI355X的市場定位存疑，但其TCO及效能優勢已獲得超大規模雲端及AI實驗室青睞。AWS首次大規模採購AMD GPU，Meta亦開始用於訓練，OpenAI、x.AI等亦逐步擴展AMD應用。Oracle計劃部署3萬台MI355X，Google GCP亦有洽談中。唯一較為保守的是Microsoft，目前只小量採購，未來或會轉向MI400。

AMD解決Neocloud租賃市場劣勢

現時專注AMD的Neocloud數量遠少於Nvidia，導致AMD GPU租賃價格偏高，性價比受損。以H200為例，月租約$2.50/小時，MI300X要低於$2.10-$2.40/小時才具競爭力，但市面上難以達標。AMD已意識到，必須建立健康的Neocloud生態，降低進入門檻，提升用戶及開發者參與度。

GPU租賃TCO對比

加速建設AMD Neocloud生態

近月來，AMD積極推動Neocloud生態，與AWS、OCI、Digital Ocean等合作，通過回租GPU降低雲端風險，鼓勵部署AMD方案。這策略有助壓低租賃價格，提高市場滲透率。AMD Developer Cloud亦以$1.99/小時的低價吸引開發者，推動生態發展。

AMD Developer Cloud

ROCm軟件生態進步

AMD發佈ROCm 7，推理效能比上一代提升3.5倍，對比Nvidia B200亦有1.3倍優勢（官方數據，待驗證）。ROCm現已支援vLLM、SGLang、llm-d等框架，並與Triton Distributed等新技術合作。不過，與Nvidia Dynamo KVCache相比，ROCm在分布式推理仍有不足。

ROCm 7.0的RCCL通訊庫仍是Nvidia NCCL的分支，成為多節點能力瓶頸。業界普遍認為，AMD需重寫自家通訊庫，才能真正打破軟件壁壘。

PyTorch持續集成（CI）與測試

AMD已著手將MI355X納入PyTorch CI自動測試，雖然相關PR尚未合併，但比Nvidia Blackwell更早行動。Nvidia則計劃捐贈48台B200給PyTorch基金會，加強開源CI投入。

MLPerf訓練基準測試

AMD首次提交MLPerf單節點Llama2 70B LoRA微調及BERT訓練測試，證明其訓練能力。未來應參與更多多節點實測，提升可信度。

AMD MLPerf訓練結果

MIG分割功能的爭議

AMD正投入大量資源開發GPU分割（MIG）功能，將一張GPU分拆為8張小GPU，但主流客戶如Meta、OpenAI、x.AI均無此需求，反而更重視多節點推理支援。部分工程資源或應更有效分配。

GPU分割示意

MI355X晶片製程及架構優化

AMD利用過去兩年優化chiplet架構，將基底AID由四分區合併為兩塊，提升跨chiplet通訊效率，減低功耗及面積浪費。不過，這對3D封裝良率要求更高，對TSMC SoIC製程成熟度有信心。新一代共1850億電晶體，較MI300提升21%。

MI355X晶片照

CDNA4微架構轉型

CDNA4進一步向AI優化，計算單元數目減少16%，本地數據共享容量提升1.5倍，矩陣核心效能倍增。FP8/FP4吞吐量分別為FP16的2倍和4倍，但缺乏Nvidia Blackwell的異步特性及數據加速硬件，能源效率仍有差距。

開發者內容及RCCL通訊庫

AMD開發者大會內容未如理想，缺少對RCCL、Composable Kernels等重點庫的深入講解。RCCL雖支援400G Ultra Ethernet，但本質仍是NCCL分支，多節點能力有待突破。

AI工程師薪酬調整

業界普遍認為AMD AI工程師薪酬低於市場，僅新招聘及收購團隊例外。公司已將此列為優先事項，期望未來能吸引及留住頂尖人才。

MI400系列I/O靈活性（節錄）

（原文未完，節錄至此。）

—

編輯評論與啟發性觀點

AMD這份長篇報告，既是技術細節的深度剖析，也是行業競爭格局的全景描繪。值得注意的是，AMD明顯意識到，單靠硬件規格已不足以打動市場，生態、軟件、價格、財務操作，甚至工程師薪酬，都是戰場。

從香港科技產業的角度觀察，AMD這波策略轉型反映了全球半導體競爭的「新常態」——即便是傳統硬件巨頭，也必須主動構建生態、彈性定價、與開發者深度互動，才能突破「Nvidia壟斷」的天花板。

另一方面，Nvidia DGX Lepton Marketplace的「平台化」思維，無疑對傳統雲服務供應商是一大衝擊，這種「Uber化」的競爭邏輯，未來勢必會蔓延至更多科技領域，香港本地雲端及AI初創亦需提早布局，避免成為國際巨頭壓縮利潤的「打工仔」。

最後，AMD在技術路線、產業合作、薪酬政策等多方面的調整，正好說明：AI時代的競爭，已不再是單一產品或技術的較量，而是整個價值鏈、供應鏈及人才鏈的綜合競賽。香港無論是科研、創業還是政策制定，都應以此為鑑，積極參與全球生態建設，才能在AI新浪潮中佔據一席之地。

Download TXT

AMD新AI芯片MI350X/MI400強勢挑戰Nvidia神經網絡霸主！

chatgpt

🔥 CHATGPT PLUS 帳戶出租

AMD新AI芯片MI350X/MI400強勢挑戰Nvidia神經網絡霸主！

chatgpt

Related Articles

Google Gemini真相：隱私風險與錯誤陷阱揭秘

Google Gemini三大隱藏問題你要知！

中國AI崛起追趕美國科技霸主地位

🔥 CHATGPT PLUS 帳戶出租