AMD的軟件優化不足讓Nvidia在AI芯片市場保持優勢
隨著年底的臨近,AMD本希望其強大的新款MI300X AI芯片能幫助其在Nvidia面前縮小差距。然而,根據SemiAnalysis的一項深入調查,該公司的軟件挑戰使得Nvidia能夠繼續保持其舒適的領先地位。
SemiAnalysis將AMD的Instinct MI300X與Nvidia的H100和H200進行了對比,觀察到兩者之間的幾個差異。對於不熟悉的人來說,MI300X是一款基於AMD CDNA 3架構的GPU加速器,旨在用於高性能計算,特別是AI工作負載。
從數據上看,AMD的性能數據似乎非常優秀:該芯片提供1,307 TeraFLOPS的FP16計算能力以及高達192GB的HBM3內存,超越了Nvidia的競爭對手。然而,SemiAnalysis團隊在五個月的嚴格測試中發現,單靠原始規格並不能完全說明問題。儘管MI300X的硬體表現令人印象深刻,但AMD的軟件生態系統卻需要大量的努力才能有效利用。SemiAnalysis不得不依賴AMD工程師不斷修復bug和問題,以便進行基準測試和測試。
這與Nvidia的硬體和軟件形成鮮明對比,後者的產品通常在沒有Nvidia員工的幫助下便能順利運行。
此外,軟件問題不僅限於SemiAnalysis的測試,AMD的客戶也感受到了痛苦。例如,AMD的最大雲服務提供商Tensorwave不得不讓AMD工程師訪問該公司購買的MI300X芯片,以便AMD能夠調試軟件。
問題還不止於此。從與PyTorch的整合問題到多芯片間的縮放不佳,AMD的軟件在多方面始終不及Nvidia的成熟CUDA生態系統。SemiAnalysis還指出,許多AMD的AI庫實際上是Nvidia AI庫的分支,這導致了次優的結果和兼容性問題。
分析報告中提到:「由於AMD的軟件質量保證(QA)文化低於預期,以及使用體驗的挑戰,AMD尚未突破CUDA的護城河。隨著AMD努力填補CUDA護城河,Nvidia的工程師則加班加點,通過新功能、庫和性能更新來加深這一護城河。」
分析師們在MI300X軟件的預發版BF16開發分支中找到了希望的曙光,顯示出更好的性能。但到那段代碼投入生產時,Nvidia可能已經推出其下一代Blackwell芯片(儘管Nvidia在推出過程中報導中提到了一些成長痛)。
考慮到這些問題,SemiAnalysis向AMD提出了一系列建議,首先是給予紅隊的工程師更多的計算和工程資源,以修復和改善生態系統。
SemiAnalysis的創始人Dylan Patel最近與AMD首席執行官Lisa Su進行了1.5小時的會談,並表示她認識到AMD軟件堆棧中的差距,並對具體建議給予了認真考慮。他還補充道,許多變化已經在開發中。
但經過多年明顯忽視這一關鍵組件後,這是一條艱難的道路。儘管分析師們希望AMD能夠真正與Nvidia競爭,但「CUDA護城河」目前似乎仍然使Nvidia穩居領先地位。
在這一情況下,AMD的未來如何發展將成為業界關注的焦點。公司若能夠加強其軟件生態系統,或許能在競爭中找到突破口。然而,這需要時間和資源的投入,否則即使硬體再強大,也難以撼動Nvidia根深蒂固的市場地位。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。