一個人工智能系統在“通用智能”測試中達到人類水平。這意味著什麼?
一個新的人工智能(AI)模型最近在一項旨在測量“通用智能”的測試中達到了人類水平的結果。
12月20日,OpenAI的o3系統在ARC-AGI基準測試中得分85%,遠高於之前的AI最佳得分55%,並且與人類的平均得分相當。它在一個非常困難的數學測試中也表現良好。
創建人工通用智能(AGI)是所有主要AI研究實驗室的明確目標。乍一看,OpenAI似乎在這個目標上至少邁出了重要的一步。
儘管仍然存在懷疑,但許多AI研究人員和開發者感到事情似乎發生了變化。對於許多人來說,AGI的前景現在看起來更加真實、緊迫和接近。他們真的正確嗎?
概括與智能
要理解o3的結果意味著什麼,首先需要了解ARC-AGI測試的內容。從技術上來說,這是一個測試AI系統在適應新事物時的“樣本效率”——系統需要看到多少新情況的例子才能弄清楚它的運作方式。
像ChatGPT(GPT-4)這樣的AI系統在樣本效率上並不高。它是基於數百萬個人類文本的例子進行“訓練”的,構建出關於哪些單詞組合最可能的概率“規則”。
因此,它在常見任務上表現不錯,但在不常見的任務上卻表現不佳,因為其關於這些任務的數據較少(樣本較少)。
如果AI系統能夠從少量例子中學習並提高樣本效率,那麼它們將能夠應用於更廣泛的任務,而不僅僅是重複性工作或偶爾失敗是可以接受的工作。
準確解決之前未知或新穎問題的能力被稱為概括能力。這被廣泛認為是智能的一個必要,甚至是基本的元素。
網格與模式
ARC-AGI基準測試使用類似於下圖的小網格方塊問題來測試樣本有效的適應性。AI需要找出將左側網格轉換為右側網格的模式。
每個問題提供三個示例供學習。然後,AI系統需要找出從這三個示例“概括”到第四個的規則。
這些問題有點像你可能記得的學校智商測試。
弱規則與適應
我們並不確定OpenAI是如何做到的,但結果顯示o3模型具有高度的適應性。它從僅僅幾個例子中找出可以概括的規則。
要找出一個模式,我們不應該做任何不必要的假設,或比實際需要的更具體。理論上,如果能夠識別出“最弱”的規則,那麼就能最大化適應新情況的能力。
我們所說的最弱規則是什麼?技術上的定義很複雜,但較弱的規則通常是可以用更簡單的陳述來描述的。
在上述示例中,規則的普通英語表達可能是:“任何有突出線條的形狀將移至該線條的末端,並‘覆蓋’與之重疊的其他形狀。”
思維鏈的搜索?
雖然我們還不知道OpenAI是如何實現這一結果的,但似乎不太可能他們特意優化o3系統以尋找弱規則。然而,為了在ARC-AGI任務中取得成功,它必須正在找到這些規則。
我們知道,OpenAI從一個通用版本的o3模型開始(這與大多數其他模型不同,因為它可以花更多的時間“思考”困難問題),然後專門為ARC-AGI測試進行訓練。
法國AI研究員Francois Chollet設計了這一基準,他認為o3在不同的“思維鏈”中搜索,描述解決任務的步驟。然後它根據某些鬆散定義的規則或“啟發式”選擇“最佳”解決方案。
這與Google的AlphaGo系統搜索不同可能的移動序列以擊敗世界圍棋冠軍的方式“相似”。
我們仍然不知道的事情
那麼,這是否真的更接近AGI?如果o3就是這樣運作的,那麼底層模型可能不比之前的模型好多少。
模型從語言中學到的概念可能並不比以前更適合進行概括。相反,我們可能只是看到了一個更具可概括性的“思維鏈”,這是通過額外的訓練步驟專門針對這一測試而找到的。證明將永遠在於結果。
關於o3的幾乎所有內容仍然未知。OpenAI僅向少數媒體介紹和早期測試了一小部分研究人員、實驗室和AI安全機構。
真正理解o3的潛力需要大量工作,包括評估、理解其能力的分佈、它失敗和成功的頻率。
當o3最終發布時,我們將更清楚它是否與普通人類的適應能力大致相當。
如果是,那麼它可能會帶來巨大的革命性經濟影響,開創自我改進加速智能的新時代。我們將需要為AGI本身制定新的基準,並認真考慮如何進行治理。
如果不是,那麼這仍然是一個令人印象深刻的結果。然而,日常生活將保持不變。
在這篇文章中,我們看到人工智能的發展進入了一個新的階段,這不僅是技術上的突破,更是對我們理解智能本身的一次挑戰。隨著AGI的夢想逐漸變得可見,我們必須開始思考如何在道德和社會層面上管理這項技術的影響。是否能確保這樣的技術不僅僅是為了經濟利益而存在,還能為人類社會帶來積極的變化,這將是未來我們需要面對的重要課題。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。