DeepSeek AI 突破:棄用 CUDA,用 PTX 提升效能

Ai

DeepSeek的AI突破:繞過行業標準CUDA,採用類彙編的PTX編程

DeepSeek在AI行業中引起了不小的轟動,該公司利用2,048個Nvidia H800 GPU組成的集群,在約兩個月內訓練了其擁有6710億參數的專家混合(Mixture-of-Experts, MoE)語言模型,效率比像Meta這樣的AI行業領導者高出10倍。根據Mirae Asset Securities Korea的分析,這一突破是通過大量的細緻優化和使用類彙編的PTX(Parallel Thread Execution)編程來實現的,而非Nvidia的CUDA。

Nvidia的PTX是一種中間指令集架構,專為其GPU設計。PTX在高級GPU編程語言(如CUDA C/C++或其他語言前端)和低級機器碼(流媒體彙編,或SASS)之間起著橋樑的作用。PTX作為接近硬件層的指令集架構,將GPU視為數據並行計算設備,因此允許進行細緻的優化,例如寄存器分配和線程/波束級別的調整,這是CUDA C/C++和其他語言無法實現的。一旦PTX轉換為SASS,就會針對特定世代的Nvidia GPU進行優化。

例如,在訓練其V3模型時,DeepSeek對Nvidia H800 GPU進行了重新配置:在132個流媒體多處理器中,有20個被分配用於伺服器之間的通信,這可能是為了壓縮和解壓數據,以克服處理器的連接限制並加快交易速度。為了最大化性能,DeepSeek還實施了先進的管道算法,可能通過進行額外的細緻線程/波束級別調整來實現。

這些修改遠遠超出了標準的CUDA級開發,但維護起來極其困難。因此,這種優化水平反映了DeepSeek工程師的卓越技術。全球GPU短缺,加上美國的限制,迫使像DeepSeek這樣的公司採用創新解決方案,而DeepSeek的突破也確實讓人眼前一亮。然而,DeepSeek為了達成其成果投入了多少資金仍不明朗。

這一突破擾亂了市場,一些投資者認為,對新AI模型所需的高性能硬件需求將會減少,這將影響像Nvidia這樣公司的銷售。行業老將,如英特爾的前首席執行官Pat Gelsinger,認為AI等應用可以利用所有可用的計算能力。至於DeepSeek的突破,Gelsinger則視其為將AI整合到大眾市場中一系列廉價設備的方式。

在這個快速變化的科技環境中,DeepSeek的創新不僅顯示出其技術優勢,還可能改變未來AI技術的發展方向。這不僅是對傳統硬件依賴的挑戰,更是對整個行業的一次深刻反思。隨著AI應用的普及,如何在有限的資源下實現高效運行將成為未來的關鍵課題。對於投資者來說,這意味著需要重新評估市場需求和技術進步之間的平衡點。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon