
DeepSeek的AI模型或許並不像宣稱般具顛覆性,報導指公司擁有50,000個Nvidia GPU,並在基建上花費16億美元
中國初創公司DeepSeek最近在科技界引起廣泛關注,因其宣稱的先進AI模型R1在計算資源上的使用極為低廉,據稱與OpenAI的o1模型具有競爭力。儘管DeepSeek聲稱訓練成本僅為600萬美元,並使用2048個GPU,但業界分析公司SemiAnalysis報導指出,DeepSeek背後的公司實際上在硬件上花費了16億美元,並擁有50,000個Nvidia Hopper GPU,這一發現削弱了DeepSeek在AI訓練和推論上以顯著低於行業領導者的投資進行創新之說。
報導稱,DeepSeek運營著一個龐大的計算基礎設施,擁有約50,000個Hopper GPU,其中包括10,000個H800和10,000個H100,還有額外購買的H20單元。這些資源分佈在多個地點,用於AI訓練、研究和金融建模。根據SemiAnalysis的數據,該公司在伺服器上的總資本投資約為16億美元,預計在運營成本上花費了約9.44億美元。
DeepSeek因其DeepSeek-V3專家混合模型(MoE)所需的極少硬件要求而迅速吸引了AI界的關注,這一需求遠低於美國模型。隨後,DeepSeek又以其競爭OpenAI的R1 AI模型震驚了高科技界。然而,SemiAnalysis這一知名市場情報公司揭示的發現表明,該公司的硬件投資高達16億美元。
DeepSeek源於High-Flyer,一家早期重視AI並大量投資GPU的中國對沖基金。2023年,High-Flyer將DeepSeek作為一個專注於AI的獨立項目推出。與許多競爭對手不同,DeepSeek保持自籌資金,這使其在決策上擁有靈活性和速度。儘管聲稱是小型分支,但根據SemiAnalysis的數據,該公司已在技術上投資超過5億美元。
DeepSeek的一大區別在於其能夠運行自主數據中心,這與大多數依賴外部雲服務提供商的AI初創公司不同。這種獨立性使其能夠全面控制實驗和AI模型的優化。此外,它還能夠迅速迭代,避免外部瓶頸,使DeepSeek在與行業傳統參與者相比時顯得格外高效。
再者,DeepSeek在人才招聘方面的做法也讓人意外:其專注於中國內地的人才,並未從台灣或美國挖角。根據SemiAnalysis的報導,DeepSeek專注於技能和問題解決能力,而非正式學歷,招聘對象主要來自北京大學和浙江大學,並提供具競爭力的薪資。研究顯示,DeepSeek的一些AI研究人員年薪超過130萬美元,超過了其他中國領先AI公司的薪資水平。
由於人才的湧入,DeepSeek開創了如多頭潛在注意力(MLA)等創新技術,這一過程需要數月的開發和大量的GPU使用。DeepSeek強調效率和算法改進,而非單純的擴張,重新塑造了人們對AI模型開發的期望。這一方法讓不少人相信,迅速的技術進步可能會減少對高端GPU的需求,影響像Nvidia這樣的公司。
最近,DeepSeek聲稱其最新模型的訓練成本僅為600萬美元,這一說法引發了大量關注。然而,這一數字僅指訓練成本的一部分——特別是預訓練所需的GPU時間,並未包括研究、模型優化、數據處理或整體基礎設施開支。實際上,自成立以來,DeepSeek在AI開發上花費已超過5億美元。與大型公司因官僚主義而受到束縛不同,SemiAnalysis認為DeepSeek的精簡結構使其能夠在AI創新中迅速推進。
DeepSeek的崛起凸顯了一家資金充足的獨立AI公司如何挑戰行業領導者。然而,公眾對此的討論或許受到炒作的驅動。事實更為複雜:SemiAnalysis認為DeepSeek的成功是建立在數十億美元的戰略投資、技術突破及競爭性人才基礎之上。這意味著,並不存在奇蹟。正如Elon Musk一年前所言,若想在AI領域保持競爭力,必須每年投入數十億美元,這正是DeepSeek的實際情況。
這篇報導揭示了當前AI領域的競爭格局及其背後的真實情況,讓我們意識到「低成本」的神話並不成立。隨著技術的快速發展,未來我們可能會看到更多類似DeepSeek的公司崛起,但這也意味著投資與能力的競爭將愈發激烈。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。