DeepSeek AI 突破：棄用 CUDA，用 PTX 提升效能

zero comment

DeepSeek的AI突破：繞過行業標準CUDA，採用類彙編的PTX編程

DeepSeek在AI行業中引起了不小的轟動，該公司利用2,048個Nvidia H800 GPU組成的集群，在約兩個月內訓練了其擁有6710億參數的專家混合（Mixture-of-Experts, MoE）語言模型，效率比像Meta這樣的AI行業領導者高出10倍。根據Mirae Asset Securities Korea的分析，這一突破是通過大量的細緻優化和使用類彙編的PTX（Parallel Thread Execution）編程來實現的，而非Nvidia的CUDA。

Nvidia的PTX是一種中間指令集架構，專為其GPU設計。PTX在高級GPU編程語言（如CUDA C/C++或其他語言前端）和低級機器碼（流媒體彙編，或SASS）之間起著橋樑的作用。PTX作為接近硬件層的指令集架構，將GPU視為數據並行計算設備，因此允許進行細緻的優化，例如寄存器分配和線程/波束級別的調整，這是CUDA C/C++和其他語言無法實現的。一旦PTX轉換為SASS，就會針對特定世代的Nvidia GPU進行優化。

例如，在訓練其V3模型時，DeepSeek對Nvidia H800 GPU進行了重新配置：在132個流媒體多處理器中，有20個被分配用於伺服器之間的通信，這可能是為了壓縮和解壓數據，以克服處理器的連接限制並加快交易速度。為了最大化性能，DeepSeek還實施了先進的管道算法，可能通過進行額外的細緻線程/波束級別調整來實現。

這些修改遠遠超出了標準的CUDA級開發，但維護起來極其困難。因此，這種優化水平反映了DeepSeek工程師的卓越技術。全球GPU短缺，加上美國的限制，迫使像DeepSeek這樣的公司採用創新解決方案，而DeepSeek的突破也確實讓人眼前一亮。然而，DeepSeek為了達成其成果投入了多少資金仍不明朗。

這一突破擾亂了市場，一些投資者認為，對新AI模型所需的高性能硬件需求將會減少，這將影響像Nvidia這樣公司的銷售。行業老將，如英特爾的前首席執行官Pat Gelsinger，認為AI等應用可以利用所有可用的計算能力。至於DeepSeek的突破，Gelsinger則視其為將AI整合到大眾市場中一系列廉價設備的方式。

在這個快速變化的科技環境中，DeepSeek的創新不僅顯示出其技術優勢，還可能改變未來AI技術的發展方向。這不僅是對傳統硬件依賴的挑戰，更是對整個行業的一次深刻反思。隨著AI應用的普及，如何在有限的資源下實現高效運行將成為未來的關鍵課題。對於投資者來說，這意味著需要重新評估市場需求和技術進步之間的平衡點。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

DeepSeek AI 突破：棄用 CUDA，用 PTX 提升效能

chatgpt

Related Articles

AI爭議：Meta人工智能出包，專家憂慮副作用，用戶唔buy！

網頁瀏覽器過時？即刻更新保證順暢瀏覽！

微軟力撐DeepSeek AI，挑戰OpenAI霸權？