馬斯克的超級電腦:100,000個GPU的AI革命

Ai

Elon Musk的超級電腦配置10萬個Nvidia GPU,使用專有的Spectrum-X網絡平台

簡介:Elon Musk在人工智能領域的狂野嘗試,促成了在短時間內建造出一台龐大的超級電腦。令人好奇的是,Nvidia指出,這台超級系統並沒有使用傳統的InfiniBand網絡標準來傳輸數據。

由xAI建造的高性能計算系統名為Colossus,配置了10萬個Hopper GPU。該系統採用了公司的Spectrum-X網絡平台,而非InfiniBand。Nvidia在2019年收購了InfiniBand的最後一個獨立供應商Mellanox。

Nvidia表示,Colossus的設計者主要依靠Spectrum-X來實現系統的巨大規模。這項技術大大提高了直接內存訪問網絡的性能,同時使用基於標準的以太網通信設備。Colossus在創紀錄的時間內完成建設,xAI團隊現在正著手通過在系統中安裝另外10萬個Hopper GPU來使其性能翻倍。

標準的以太網設備對於Colossus來說是不夠的,因為它們可能會導致數千次流量衝突,並僅僅提供60%的數據吞吐量。相比之下,Spectrum-X保證了“零應用程序延遲降解”,並通過其“擁塞控制”系統消除因流量衝突而造成的數據包丟失,保持了顯著更高的95%的數據吞吐量。Colossus正在訓練屬於Grok系列的大型語言模型,這需要“前所未有”的網絡性能。

Spectrum-X不是普通的以太網技術。該平台的核心是Spectrum SN5600以太網交換機,Nvidia聲稱它可以支持高達800 Gbps的單個端口。這款交換機基於Spectrum-4自定義ASIC,xAI將其與Nvidia BlueField-3 SuperNICs配對,以有效加速GPU到GPU的通信。

InfiniBand專為滿足高性能計算系統的通信需求而設計,將數據包丟失保持在絕對最低限度。雖然以太網的數據丟失率顯著更高,但由於兼容性高、供應商選擇多以及每個端口潛在的更高帶寬能力等因素,即使在對速度敏感的高性能計算市場中,它仍然非常受歡迎。

Nvidia表示,其Spectrum-X以太網網絡平台可以加速強大AI系統如Colossus的開發,減少將大型高性能計算機器上線所需的時間。Spectrum-X技術是可擴展的,並且可能提供以前只能通過InfiniBand解決方案獲得的網絡功能。

編者評論:Elon Musk的這項新舉措,不僅展示了他在技術創新上的雄心,也揭示了未來超級計算機系統的一種新可能性。傳統上,InfiniBand被認為是高性能計算的標準選擇,但xAI和Nvidia的合作顯示,以太網技術在正確的設計和配置下,也能達到甚至超越InfiniBand的效果。這不僅是技術進步的體現,也可能會在市場上引發更多競爭和創新。這樣的進步對AI系統的發展至關重要,特別是在需要大量數據處理和快速運算的領域。未來,隨著這種技術的進一步成熟,我們可能會看到更多類似的突破,從而推動AI和高性能計算的整體進步。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *