
科技
這個AI模型的訓練成本低於AED 184,能夠媲美OpenAI的o1
DeepSeek顛覆了整個行業
作者:Badar Shaikh 2025年2月6日
一群來自史丹福大學和華盛頓大學的研究人員,成功地以AED 184(約50美元)的成本訓練了一個AI推理模型。根據研究人員發表的論文,該模型在性能上可與OpenAI的o1、DeepSeek的R1等AI模型相媲美。研究人員表示,S1模型是通過一種稱為“蒸餾”的過程開發的,這就像教師教導學生一樣。該模型是開源的,並已在GitHub上發布。
一個低於50美元的AI模型;這是怎麼實現的?
這個名為s1的模型在數學和編程能力方面,與o1和R1表現相似。研究人員表示,他們從阿里巴巴的Qwen模型開始,然後使用谷歌最新的Gemini 2.0 Flash Experimental進行訓練,這是一個免費的平台,雖然有每日使用限制。該平台允許開發者利用Gemini的完整AI能力,並提供文本、音頻以及視覺等多模態AI集成。
史丹福介紹:
s1:簡單的測試時擴展
– 尋求最簡單的方法以實現測試時擴展和強大的推理性能
– 在競爭數學問題上超越o1-preview達27%(MATH和AIME24)
– 模型、數據和代碼均為開源
研究人員通過1000個精心挑選的問題和答案來訓練AI模型,這些問題和答案基於Gemini 2.0的回應,以及模型對這些回應的推理和思考。研究人員實施了SFT(監督微調)方法,這種方法相對於DeepSeek的RL(強化學習)來說,所需時間更少,RL是強迫AI自主思考的一種方法。他們還表示,使用16個Nvidia GPU訓練s1模型僅花了30分鐘。
AI的崩潰
自從DeepSeek上個月推出其R1模型以來,AI行業出現了一場崩潰,投資者質疑科技公司是否真的需要投入如此巨額的資金進行AI研究和開發。
雖然OpenAI、軟銀和甲骨文推出了以美國總統唐納德·特朗普為首的“星際計劃”,承諾在美國開發AI基礎設施的投資達5000億美元,但DeepSeek卻宣稱其模型的訓練成本低於2000萬美元,這使得矽谷陷入瘋狂。
最新消息 – Nvidia市值蒸發近6000億美元,創下美國歷史上單日最大損失 — Insider Paper (@TheInsiderPaper) 2025年1月27日
DeepSeek的公告導致美國歷史上最大的股市崩盤之一,市場上幾乎有1萬億美元的市值被抹去,Nvidia這家公司因其GPU在AI開發中至關重要而價值激增,但其市值卻蒸發近6000億美元。
印度新聞機構控告OpenAI侵犯版權
OpenAI指控DeepSeek侵犯版權,因為其涉嫌使用OpenAI的API訓練R1。雖然該公司的主張可能存在爭議,但OpenAI卻因為被指控侵犯多項版權以訓練其AI模型而面臨大量反對聲音。隨著越來越多的AI模型以微薄的成本進行訓練,投資者無疑會質疑科技公司是否真的需要在開發一個合格的AI模型上花費如此巨額的資金。
深入思考
這篇文章揭示了AI技術發展的兩個重要趨勢:首先,成本的顯著降低使得更多的研究者和開發者能夠參與到AI的創新中,這不僅推動了技術的普及,也促進了開源文化的發展。其次,這一現象可能會對大型科技公司的商業模式形成挑戰,因為越來越多的證據顯示,開發高效AI模型並不一定需要巨額的資金投入。這將迫使這些公司重新評估他們的投資策略,並可能導致行業內部的競爭格局發生變化。
在這樣的背景下,DeepSeek的成功不僅是技術上的突破,更可能成為未來AI發展的重要參考標杆。隨著市場對成本效益的重視,未來的科技創新可能會更加注重實用性和可持續性,而不僅僅是追求高端技術的高額投資。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。