OpenAI的AGI計劃:未來風雲變幻

Ai

OpenAI若無法擴展推理時間,將面臨重大危機

根據《The Information》的報導,OpenAI從GPT-4到Orion的進展已經放緩。雖然OpenAI僅完成了Orion訓練的20%,但它在智力、任務執行和問答能力上已經與GPT-4相當。雖然Orion在性能上超越了之前的模型,但質量的提升並不像從GPT-3到GPT-4的飛躍那麼顯著。

這引發了許多人的疑問——大型語言模型(LLM)的改進是否達到了瓶頸?最著名的AI批評家Gary Marcus在社交媒體上表達了他的興奮,並宣稱“遊戲結束。我贏了。GPT正在經歷收益遞減的階段,正如我所預測的那樣。”

然而,看起來Marcus可能過於早慶祝了。文章的一位作者迅速回應Marcus,表示“尊重地說,這篇文章引入了一個新的AI擴展法則,可以取代舊的法則。天並沒有塌下來。”

同樣,OpenAI的研究人員也迅速糾正了這一敘述,聲稱該文章不準確地描繪了OpenAI即將推出的模型的進展,甚至有些誤導。

OpenAI的創始成員Adam Goldberg表示:“對於像o1系列這樣的模型來說,現在有兩個關鍵的擴展維度——訓練時間和推理時間。”他解釋,雖然傳統的擴展法則仍然適用,但現在還有另一個重要因素。

他補充道:“擴展的各個方面仍然是基礎。然而,這第二個擴展維度的引入將解鎖驚人的新能力。”

他闡述了OpenAI研究員Noam Brown之前的說法,指出o1是通過強化學習(RL)進行訓練的,讓模型在回答之前“思考”。他表示,“思考的時間越長,推理任務的表現就越好。”這引入了一個新的擴展維度。他補充說:“我們不再受限於預訓練。我們現在也可以擴展推理計算。”

OpenAI的另一位研究員Jason Wei為o1辯護,並解釋了o1之前和之後思考鏈的不同。他指出,傳統的思考鏈推理對於像GPT這樣的AI模型來說更像是模仿,而不是真正的“思考”過程。他表示,模型通常會重現其在預訓練過程中遇到的推理路徑,比如數學問題的解決方案。

他補充說,o1系統引入了一種更強大且真實的“思考”過程。在這一範式中,思考鏈更像是內部推理過程的反映,類似於人類的思考方式。他解釋,模型不僅僅是給出答案,而是進行“內心獨白”或“意識流”,在其中主動考慮和評估選擇。

“你可以看到模型在回溯,它會說‘另一種情況,我們試試看’或‘等等,但’,”他補充道。這種來回的過程是一種更動態和深思熟慮的解決問題方法。

OpenAI產品副總裁Peter Welinder則表示:“人們低估了測試時間計算的威力:計算時間越長,可以並行進行,或者任意分叉和分支——就像將你的思維克隆1000次並選擇最佳想法。”

在OpenAI發布o1-mini和o1-preview時,他們在博客中提到,o1的表現隨著更多的強化學習(訓練時間計算)和思考時間的增加而不斷改善。

關於推理時間擴展,他們表示:“擴展這一方法的限制與LLM預訓練的限制有很大不同,我們仍在持續調查這些限制。”

目前,OpenAI似乎已經耗盡了用於預訓練模型的所有數據,並正在探索改善o1的新方法。根據《The Information》的報導,Orion部分訓練使用了由其他OpenAI模型(包括GPT-4和最近發布的推理模型)生成的AI數據(或合成數據)。

AGI即將到來?

雖然其他人仍然不確定,但OpenAI的首席執行官Sam Altman對人工通用智能(AGI)的到來充滿信心。他在最近的一次採訪中表示,AGI可能會在2025年出現。“我認為我們將比人們預期的更快達到這一目標,”他強調OpenAI的加速進展。

此外,他提到OpenAI的資源比DeepMind和其他公司少。“所以我們說,‘好吧,他們會嘗試很多東西,而我們只需選擇一個並真正專注’,”他補充道。

“我聽說有人聲稱Sam只是在炒作,但根據我所見,他所說的與OpenAI研究人員的中間觀點相符,”Brown表示。

OpenAI尚未完全發布o1。儘管目前在數學和編碼方面的表現不佳,但這並不意味著它不會隨著時間的推移而改善。許多人認為,o1可能是系統2思維的第一個商業應用。

在EpochAI的FrontierMath基準測試中,該測試針對一些最困難且未公開的數學問題,結果顯示只有2%的這些問題被LLM成功解決。雖然所有模型的表現都不佳,但o1的預覽版本在重複測試中顯示出積極的跡象,能夠穩定地正確解決問題。

最近,Apple發表了一篇題為《理解大型語言模型在數學推理中的局限性》的論文,指出目前的LLM無法推理。研究人員引入了GSM-Symbolic,這是一種新的測試LLM數學推理的工具,因為GSM8K的準確性不足,因此不適合用來測試LLM的推理能力。

令人驚訝的是,在這一基準測試中,OpenAI的o1在各種推理和知識基準測試中表現出“強勁的表現”。然而,當研究人員引入GSM-NoOp實驗,這涉及在問題中添加不相關的信息時,其能力下降了30%。

未來的挑戰與機遇

亞利桑那州立大學的計算機科學和AI教授Subbarao Kambhampati表示,某些LLM能夠推理的說法是“誇大的”。他認為,LLM需要更多的工具來處理系統2任務(推理),而像微調或思考鏈這樣的技術是不夠的。

“當我們開發能夠真正推理的AI系統時,它們將涉及深度學習(作為兩個主要組件之一,另一個是離散搜索)。一些人可能會辯稱這‘證明’了深度學習能夠推理,”Keras的創始人François Chollet表示。“但這並不真實。這將證明僅僅依靠深度學習是不夠的,我們需要將其與離散搜索相結合,”Chollet補充道。

他指出,Gemini在AlphaProof中的納入基本上是“表面上的和出於營銷目的”。他認為,這反映了一種更廣泛的趨勢——將‘LLM’品牌名稱作為所有AI進展的總稱,儘管其中許多與LLM無關。

當OpenAI發布o1,聲稱該模型能夠思考和推理時,Hugging Face的首席執行官Clem Delangue並不感興趣。他表示:“再一次,AI系統並不是在‘思考’,而是在‘處理’,‘運行預測’……就像Google或計算機所做的一樣。”他補充說,OpenAI正在“銷售廉價的蛇油”。

然而,對於OpenAI來說,並非一切都失去了希望。Google DeepMind最近發表了一篇名為《思考鏈使變壓器能夠解決固有的串行問題》的論文。Denny Zhou在社交媒體上分享了他的研究,並提到“我們已經數學上證明變壓器能解決任何問題,只要它們被允許生成所需的任意多的中間推理標記。”

這與AI研究員Andrej Karpathy最近關於下個標記預測框架的言論相呼應,表明這些框架可能成為解決廣泛問題的通用工具,而不僅僅是文本或語言。

在當前快速發展的AI領域,OpenAI所面臨的挑戰與機遇並存。儘管面臨著批評和質疑,但也有不少專家對其未來的潛力持樂觀態度。如何在保持創新與應對挑戰之間取得平衡,將成為OpenAI能否在AGI之路上成功的關鍵。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *