OpenAI的AGI計劃：未來風雲變幻

zero comment

OpenAI若無法擴展推理時間，將面臨重大危機

根據《The Information》的報導，OpenAI從GPT-4到Orion的進展已經放緩。雖然OpenAI僅完成了Orion訓練的20%，但它在智力、任務執行和問答能力上已經與GPT-4相當。雖然Orion在性能上超越了之前的模型，但質量的提升並不像從GPT-3到GPT-4的飛躍那麼顯著。

這引發了許多人的疑問——大型語言模型（LLM）的改進是否達到了瓶頸？最著名的AI批評家Gary Marcus在社交媒體上表達了他的興奮，並宣稱“遊戲結束。我贏了。GPT正在經歷收益遞減的階段，正如我所預測的那樣。”

然而，看起來Marcus可能過於早慶祝了。文章的一位作者迅速回應Marcus，表示“尊重地說，這篇文章引入了一個新的AI擴展法則，可以取代舊的法則。天並沒有塌下來。”

同樣，OpenAI的研究人員也迅速糾正了這一敘述，聲稱該文章不準確地描繪了OpenAI即將推出的模型的進展，甚至有些誤導。

OpenAI的創始成員Adam Goldberg表示：“對於像o1系列這樣的模型來說，現在有兩個關鍵的擴展維度——訓練時間和推理時間。”他解釋，雖然傳統的擴展法則仍然適用，但現在還有另一個重要因素。

他補充道：“擴展的各個方面仍然是基礎。然而，這第二個擴展維度的引入將解鎖驚人的新能力。”

他闡述了OpenAI研究員Noam Brown之前的說法，指出o1是通過強化學習（RL）進行訓練的，讓模型在回答之前“思考”。他表示，“思考的時間越長，推理任務的表現就越好。”這引入了一個新的擴展維度。他補充說：“我們不再受限於預訓練。我們現在也可以擴展推理計算。”

OpenAI的另一位研究員Jason Wei為o1辯護，並解釋了o1之前和之後思考鏈的不同。他指出，傳統的思考鏈推理對於像GPT這樣的AI模型來說更像是模仿，而不是真正的“思考”過程。他表示，模型通常會重現其在預訓練過程中遇到的推理路徑，比如數學問題的解決方案。

他補充說，o1系統引入了一種更強大且真實的“思考”過程。在這一範式中，思考鏈更像是內部推理過程的反映，類似於人類的思考方式。他解釋，模型不僅僅是給出答案，而是進行“內心獨白”或“意識流”，在其中主動考慮和評估選擇。

“你可以看到模型在回溯，它會說‘另一種情況，我們試試看’或‘等等，但’，”他補充道。這種來回的過程是一種更動態和深思熟慮的解決問題方法。

OpenAI產品副總裁Peter Welinder則表示：“人們低估了測試時間計算的威力：計算時間越長，可以並行進行，或者任意分叉和分支——就像將你的思維克隆1000次並選擇最佳想法。”

在OpenAI發布o1-mini和o1-preview時，他們在博客中提到，o1的表現隨著更多的強化學習（訓練時間計算）和思考時間的增加而不斷改善。

關於推理時間擴展，他們表示：“擴展這一方法的限制與LLM預訓練的限制有很大不同，我們仍在持續調查這些限制。”

目前，OpenAI似乎已經耗盡了用於預訓練模型的所有數據，並正在探索改善o1的新方法。根據《The Information》的報導，Orion部分訓練使用了由其他OpenAI模型（包括GPT-4和最近發布的推理模型）生成的AI數據（或合成數據）。

AGI即將到來？

雖然其他人仍然不確定，但OpenAI的首席執行官Sam Altman對人工通用智能（AGI）的到來充滿信心。他在最近的一次採訪中表示，AGI可能會在2025年出現。“我認為我們將比人們預期的更快達到這一目標，”他強調OpenAI的加速進展。

此外，他提到OpenAI的資源比DeepMind和其他公司少。“所以我們說，‘好吧，他們會嘗試很多東西，而我們只需選擇一個並真正專注’，”他補充道。

“我聽說有人聲稱Sam只是在炒作，但根據我所見，他所說的與OpenAI研究人員的中間觀點相符，”Brown表示。

OpenAI尚未完全發布o1。儘管目前在數學和編碼方面的表現不佳，但這並不意味著它不會隨著時間的推移而改善。許多人認為，o1可能是系統2思維的第一個商業應用。

在EpochAI的FrontierMath基準測試中，該測試針對一些最困難且未公開的數學問題，結果顯示只有2%的這些問題被LLM成功解決。雖然所有模型的表現都不佳，但o1的預覽版本在重複測試中顯示出積極的跡象，能夠穩定地正確解決問題。

最近，Apple發表了一篇題為《理解大型語言模型在數學推理中的局限性》的論文，指出目前的LLM無法推理。研究人員引入了GSM-Symbolic，這是一種新的測試LLM數學推理的工具，因為GSM8K的準確性不足，因此不適合用來測試LLM的推理能力。

令人驚訝的是，在這一基準測試中，OpenAI的o1在各種推理和知識基準測試中表現出“強勁的表現”。然而，當研究人員引入GSM-NoOp實驗，這涉及在問題中添加不相關的信息時，其能力下降了30%。

未來的挑戰與機遇

亞利桑那州立大學的計算機科學和AI教授Subbarao Kambhampati表示，某些LLM能夠推理的說法是“誇大的”。他認為，LLM需要更多的工具來處理系統2任務（推理），而像微調或思考鏈這樣的技術是不夠的。

“當我們開發能夠真正推理的AI系統時，它們將涉及深度學習（作為兩個主要組件之一，另一個是離散搜索）。一些人可能會辯稱這‘證明’了深度學習能夠推理，”Keras的創始人François Chollet表示。“但這並不真實。這將證明僅僅依靠深度學習是不夠的，我們需要將其與離散搜索相結合，”Chollet補充道。

他指出，Gemini在AlphaProof中的納入基本上是“表面上的和出於營銷目的”。他認為，這反映了一種更廣泛的趨勢——將‘LLM’品牌名稱作為所有AI進展的總稱，儘管其中許多與LLM無關。

當OpenAI發布o1，聲稱該模型能夠思考和推理時，Hugging Face的首席執行官Clem Delangue並不感興趣。他表示：“再一次，AI系統並不是在‘思考’，而是在‘處理’，‘運行預測’……就像Google或計算機所做的一樣。”他補充說，OpenAI正在“銷售廉價的蛇油”。

然而，對於OpenAI來說，並非一切都失去了希望。Google DeepMind最近發表了一篇名為《思考鏈使變壓器能夠解決固有的串行問題》的論文。Denny Zhou在社交媒體上分享了他的研究，並提到“我們已經數學上證明變壓器能解決任何問題，只要它們被允許生成所需的任意多的中間推理標記。”

這與AI研究員Andrej Karpathy最近關於下個標記預測框架的言論相呼應，表明這些框架可能成為解決廣泛問題的通用工具，而不僅僅是文本或語言。

在當前快速發展的AI領域，OpenAI所面臨的挑戰與機遇並存。儘管面臨著批評和質疑，但也有不少專家對其未來的潛力持樂觀態度。如何在保持創新與應對挑戰之間取得平衡，將成為OpenAI能否在AGI之路上成功的關鍵。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

OpenAI的AGI計劃：未來風雲變幻

chatgpt

發佈留言取消回覆

OpenAI的AGI計劃：未來風雲變幻

chatgpt

發佈留言 取消回覆

Related Articles

《新西蘭先驅報》下午腦筋急轉彎：考你叻唔叻！

2025網站流量將消失？即刻行動應對AI搜尋衝擊！

人工智能：點樣評估真智能？

發佈留言取消回覆