DeepSeek AI搞搞震：自學模型勁過Gemini、GPT-4o？

zero comment

DeepSeek準備迎接下一波AI革命，推出自我改進模型

幾個月前，華爾街對生成式AI的重大投資經歷了一次重要的反思，當時DeepSeek首次亮相。儘管其性質受到嚴格監控，開源的DeepSeek卻證明了一個前沿推理AI模型不一定需要數十億美元的資金，亦可在有限的資源下實現。

該技術迅速被華為、OPPO和Vivo等巨頭商業化採用，並且微軟、阿里巴巴和騰訊等企業也迅速將其納入各自的平台。如今，這家備受關注的中國公司的下一個目標是自我改進AI模型，這些模型將利用循環的評判-獎勵方法來提升自身性能。

在一篇預印本論文中，DeepSeek和中國清華大學的研究人員描述了一種新的方法，可能使AI模型在自我改進方面變得更加智能和高效。這項核心技術稱為自我原則批評調整（SPCT），而這種方法在技術上被稱為生成獎勵建模（GRM）。

自我改進的AI模型

簡單來說，這就像是實時創建一個反饋循環。一個AI模型在訓練過程中通過擴大模型的規模來進行根本性的改進。這需要大量的人力和計算資源。DeepSeek提出了一種系統，其中基礎的“評判者”擁有自己的批評和原則，幫助AI模型準備對用戶查詢的回答。

這組批評和原則會與AI模型核心的靜態規則及所需結果進行比較。如果高度匹配，則會生成一個獎勵信號，這將有效引導AI在下一個循環中表現得更好。

論文背後的專家將下一代自我改進AI模型稱為DeepSeek-GRM。論文中列出的基準顯示，這些模型的表現優於谷歌的Gemini、Meta的Llama和OpenAI的GPT-4o模型。DeepSeek表示，這些下一代AI模型將通過開源渠道發布。

自我改進的AI？

自我改進的AI主題引發了許多雄心勃勃且具爭議性的言論。前谷歌CEO埃里克·施密特曾表示，我們可能需要為這類系統設置一個殺開關。他被《財富》雜誌引用說：“當系統能夠自我改進時，我們需要認真考慮拔掉電源。”

遞歸自我改進的AI概念並不是一個新奇的想法。超智能機器的概念可以追溯到1965年數學家I.J. Good的研究。2007年，AI專家Eliezer Yudkowsky提出了Seed AI的假設，即一種“旨在自我理解、自我修改和遞歸自我改進”的AI。

2024年，日本的Sakana AI詳細介紹了一個名為“AI科學家”的概念，這是一個能夠從頭到尾通過整個研究論文流程的系統。今年三月，Meta的專家發表了一篇研究論文，揭示了自我獎勵的語言模型，其中AI自身在訓練過程中擔任評判者，以提供獎勵。

微軟CEO薩提亞·納德拉表示，AI的發展正在通過OpenAI的o1模型進行優化，並已進入一個遞歸階段：“我們正在使用AI來建造AI工具，以便建造更好的AI。”

然而，這一切並非都是美好的前景。研究表明，當AI模型試圖在自我生成的合成數據上進行自我訓練時，會導致被稱為“模型崩潰”的缺陷。DeepSeek如何執行這一理念，是否能以比其西方競爭對手更節約的方式來實現，將會是值得關注的焦點。

編輯評論

隨著AI技術的不斷進步，自我改進的能力無疑是未來發展的一個重要方向。然而，這也帶來了潛在的風險和挑戰。施密特提出的“殺開關”概念提醒我們，當技術的能力超出我們的控制時，必須謹慎應對。特別是在DeepSeek的自我改進AI模型中，如何確保這些系統不會偏離預期的軌道，成為未來發展中的一個關鍵問題。

此外，DeepSeek的開源策略可能會使其在市場上佔據一席之地，因為越來越多的企業和開發者渴望利用這一技術。然而，與此同時，如何有效地管理開源社區的參與者、維護技術的安全性和可靠性，也將是一個不容忽視的挑戰。隨著自我改進AI的快速發展，我們必須在創新和風險之間找到一個平衡點，以確保這一技術能夠造福社會，而非帶來潛在的危害。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

DeepSeek AI搞搞震：自學模型勁過Gemini、GPT-4o？

chatgpt

Related Articles

Jefferies大幅沽出阿里巴巴股票揭秘！

AI發展新挑戰：開放模型與倫理抉擇

中國突破美國晶片封鎖 AI市場大洗牌！