人工智能
科技趨勢
認識DeepSeek:改變AI模型訓練方式的中國初創公司
來自杭州的DeepSeek被Nvidia研究科學家Jim Fan稱為2025年開源大型語言模型的「最大黑馬」。
閱讀時間:3分鐘
您為何可以信任SCMP
Ben Jiang在北京及Bien Perez在香港報導
發佈時間:2025年1月1日晚上9:00
中國初創公司DeepSeek在2025年開源大型語言模型(LLM)領域中迅速崛起,成為「最大黑馬」,這一評價來自Nvidia的高級研究科學家Jim Fan。他在社交媒體平台X上發表的新年帖子中提到,這一切發生在DeepSeek上周發布其同名LLM DeepSeek V3之後。
Fan寫道:「[這款新AI模型]顯示出資源限制迫使你以壯觀的方式重新發明自己」,他提到DeepSeek以遠低於其他科技公司在構建LLM上所投入的資本成本開發了這款產品。
DeepSeek V3擁有6710億個參數,並在約兩個月內以558萬美元的成本進行訓練,所需的計算資源明顯少於Facebook母公司Meta Platforms和ChatGPT創造者OpenAI等大型科技公司開發的模型。LLM是支撐生成性AI服務(如ChatGPT)技術的核心。在AI領域,參數的數量對於使LLM能夠適應更複雜的數據模式並進行精確預測至關重要。開源則使公眾能夠訪問軟件程序的源代碼,允許第三方開發者修改或共享其設計,修復故障鏈接或擴展其功能。
Nvidia的高級研究科學家Jim Fan表示,他一直密切關注人工智能初創公司DeepSeek的發展。
DeepSeek以較少的成本開發出強大的LLM,顯示了中國AI公司在美國制裁下的進步,這些制裁在很大程度上阻礙了它們獲取用於模型訓練的先進半導體的能力。
—
這篇報導突顯了DeepSeek在AI領域的突破,特別是在資源受限的情況下仍能取得如此驚人的成就。這不僅反映了中國科技企業的創新能力,也挑戰了主流科技公司的霸主地位。值得注意的是,DeepSeek的成功是對傳統觀念的顛覆,顯示出即使在資源有限的環境中,聰明的策略和創新的思維也能帶來顯著的成果。
然而,隨著技術的迅速發展,這也引發了對AI倫理和數據安全的擔憂。DeepSeek的技術如何在確保用戶隱私和數據安全的同時推動進步,將是未來需要關注的重點。此外,隨著全球對AI技術的競爭加劇,DeepSeek的崛起可能會促使其他公司加快創新步伐,從而改變整個行業的格局。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。