
DeepSeek準備迎接下一波AI革命,推出自我改進模型
幾個月前,華爾街對生成式AI的重大投資經歷了一次重要的反思,當時DeepSeek首次亮相。儘管其性質受到嚴格監控,開源的DeepSeek卻證明了一個前沿推理AI模型不一定需要數十億美元的資金,亦可在有限的資源下實現。
該技術迅速被華為、OPPO和Vivo等巨頭商業化採用,並且微軟、阿里巴巴和騰訊等企業也迅速將其納入各自的平台。如今,這家備受關注的中國公司的下一個目標是自我改進AI模型,這些模型將利用循環的評判-獎勵方法來提升自身性能。
在一篇預印本論文中,DeepSeek和中國清華大學的研究人員描述了一種新的方法,可能使AI模型在自我改進方面變得更加智能和高效。這項核心技術稱為自我原則批評調整(SPCT),而這種方法在技術上被稱為生成獎勵建模(GRM)。
自我改進的AI模型
簡單來說,這就像是實時創建一個反饋循環。一個AI模型在訓練過程中通過擴大模型的規模來進行根本性的改進。這需要大量的人力和計算資源。DeepSeek提出了一種系統,其中基礎的“評判者”擁有自己的批評和原則,幫助AI模型準備對用戶查詢的回答。
這組批評和原則會與AI模型核心的靜態規則及所需結果進行比較。如果高度匹配,則會生成一個獎勵信號,這將有效引導AI在下一個循環中表現得更好。
論文背後的專家將下一代自我改進AI模型稱為DeepSeek-GRM。論文中列出的基準顯示,這些模型的表現優於谷歌的Gemini、Meta的Llama和OpenAI的GPT-4o模型。DeepSeek表示,這些下一代AI模型將通過開源渠道發布。
自我改進的AI?
自我改進的AI主題引發了許多雄心勃勃且具爭議性的言論。前谷歌CEO埃里克·施密特曾表示,我們可能需要為這類系統設置一個殺開關。他被《財富》雜誌引用說:“當系統能夠自我改進時,我們需要認真考慮拔掉電源。”
遞歸自我改進的AI概念並不是一個新奇的想法。超智能機器的概念可以追溯到1965年數學家I.J. Good的研究。2007年,AI專家Eliezer Yudkowsky提出了Seed AI的假設,即一種“旨在自我理解、自我修改和遞歸自我改進”的AI。
2024年,日本的Sakana AI詳細介紹了一個名為“AI科學家”的概念,這是一個能夠從頭到尾通過整個研究論文流程的系統。今年三月,Meta的專家發表了一篇研究論文,揭示了自我獎勵的語言模型,其中AI自身在訓練過程中擔任評判者,以提供獎勵。
微軟CEO薩提亞·納德拉表示,AI的發展正在通過OpenAI的o1模型進行優化,並已進入一個遞歸階段:“我們正在使用AI來建造AI工具,以便建造更好的AI。”
然而,這一切並非都是美好的前景。研究表明,當AI模型試圖在自我生成的合成數據上進行自我訓練時,會導致被稱為“模型崩潰”的缺陷。DeepSeek如何執行這一理念,是否能以比其西方競爭對手更節約的方式來實現,將會是值得關注的焦點。
編輯評論
隨著AI技術的不斷進步,自我改進的能力無疑是未來發展的一個重要方向。然而,這也帶來了潛在的風險和挑戰。施密特提出的“殺開關”概念提醒我們,當技術的能力超出我們的控制時,必須謹慎應對。特別是在DeepSeek的自我改進AI模型中,如何確保這些系統不會偏離預期的軌道,成為未來發展中的一個關鍵問題。
此外,DeepSeek的開源策略可能會使其在市場上佔據一席之地,因為越來越多的企業和開發者渴望利用這一技術。然而,與此同時,如何有效地管理開源社區的參與者、維護技術的安全性和可靠性,也將是一個不容忽視的挑戰。隨著自我改進AI的快速發展,我們必須在創新和風險之間找到一個平衡點,以確保這一技術能夠造福社會,而非帶來潛在的危害。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。