AMD 公布 30×25 進展:新 AI 機器比 2020 年的機器快 28.3 倍
隨著 AI 和高性能計算(HPC)處理器的快速性能增長,性能效率成為關鍵,因此 AMD 和其他公司在每一代新產品中都在激烈競爭。早在 2021 年,AMD 就設定了到 2025 年的目標,計劃將其 EPYC 處理器和 Instinct 加速器的能效提高 30 倍,與 2020 年相比。看來,隨著最新的 EPYC 9005 系列「土倫」CPU 和 Instinct MI300X GPU 的推出,AMD 正接近實現這一目標。
為了證明其進展,AMD 使用了一台配備兩個 64 核 EPYC 9575F CPU、八個 Instinct MI300X 加速器和 2,304 GB DDR5 記憶體的機器,並在 Llama3.1-70B 模型中測試其推理性能。通過一系列複雜的計算,AMD 確定了該系統的能效,並將其與一台未公開的 2020 年機器進行比較,結果發現新機器的能效比舊機器高出 28.3 倍。
雖然 AMD 沒有披露其 2020 年系統的具體規格,但我們可以推測它基於公司的 EPYC 7002 系列處理器,這些處理器採用了 Zen 2 微架構,每個 CPU 最高可達 64 核心,並且搭載基於 CDNA 1 架構的 Instinct MI100 加速器。
AMD 的 Instinct MI100 不支持 FP8(而 MI300X 支持 FP8,並且與 INT8 的速度相同),但如果我們比較 MI100(184.6 TOPS)和 MI300X(2615 TOPS/5230 TOPS,具有稀疏性)的 INT8 性能,則在紙面上可以看到 14 到 28 倍的差距。FP16 的比較也顯示出類似的差距,因此這一比較是合理的。當考慮到記憶體子系統的顯著改善(32 GB HBM2 以 1.20 GB/s 與 192 GB HBM3 以 5.30 GB/s)以及 CPU 的顯著提升時,AMD 現有機器的性能和能效顯著優於 2020 年的系統也就不足為奇了。
AMD 自身表示,除了「粗暴的」硬體改進外,其更高的性能效率還是通過架構進步和軟體優化的結合來實現的,這也是預期之中的結果。
最近,該公司推出了基於 CDNA 3 架構的 Instinct MI325X 加速器,該加速器配備 288 GB HBM3E 記憶體子系統。明年,AMD 將推出基於 CDNA 4 架構的 Instinct MI355X 處理器,預計將 FP8 和 FP16 的性能提高約 80%。除了 FP8 和 FP16,MI325X 還將新增對 FP4 和 FP6 格式的支持,這將使其峰值性能達到 9.2 PetaFLOPS(FP4),這對許多大型語言模型將十分有用。由此可見,AMD 完全有望在 2025 年之前實現其計劃的能效提升目標。
AMD 的高級副總裁 Sam Naffziger 表示:「通過我們對硬體和軟體共同設計的深思熟慮的做法,我們對超越 30×25 目標的路線圖充滿信心,並對未來的可能性感到興奮,我們看到在未來幾年內實現巨大的能效改善的路徑。」
這篇文章展示了 AMD 在 AI 和計算領域中的持續創新,顯示出他們不斷推動技術邊界的決心。隨著新產品的推出和性能的提升,AMD 不僅在市場上提升了競爭力,同時也為未來的技術發展奠定了基礎。值得注意的是,這樣的技術進步不僅僅是為了追求性能,更是為了提高能效,這在當今環保意識日益增強的時代背景下尤為重要。AMD 的策略和成就,無疑為其他科技公司提供了借鑒,未來的競爭將更加注重可持續發展和資源的高效利用。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。