六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

蘋果新研究揭露:AI真係唔識真正推理?

Ai

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

蘋果最新研究挑戰 AI 模型是否真能「推理」解難

今年六月初,蘋果研究團隊發表了一項研究,指出模擬推理(Simulated Reasoning, SR)模型,例如 OpenAI 的 o1 和 o3、DeepSeek-R1 以及 Claude 3.7 Sonnet Thinking,在面對需要系統性思考的新問題時,產出的結果其實只是基於訓練資料的模式匹配,而非真正的邏輯推理。這與四月美國數學奧林匹克(USAMO)的一項研究結論相似,這些模型在新穎數學證明上的表現分數甚低。

這項題為「思考的幻象:從問題複雜度角度理解推理模型的優劣」的研究,由蘋果團隊 Parshin Shojaee 和 Iman Mirzadeh 領銜,並有 Keivan Alizadeh、Maxwell Horton、Samy Bengio 和 Mehrdad Farajtabar 參與。

研究人員檢視所謂「大型推理模型」(Large Reasoning Models, LRMs),這類模型嘗試透過產生所謂「鏈式思考」(chain-of-thought)文字輸出,模擬邏輯推理過程,理論上幫助逐步解決問題。

為此,他們讓 AI 模型挑戰四個經典謎題:河內塔(Tower of Hanoi,移動圓盤)、跳棋跳子(消除棋子)、過河問題(運輸帶限制物品)和積木世界(堆疊積木)。這些謎題從非常簡單(如一個圓盤的河內塔)到極度複雜(20個圓盤的河內塔,需超過百萬步驟)都有涵蓋。

研究指出,現時對 AI 模型的評估主要著眼於數學和編碼題目最後答案的正確性,卻忽略了模型是否真的透過推理得出答案,還是單純從訓練資料中套用模式。

最終結果與 USAMO 研究類似:這些模型在新數學證明題中大多得分不足 5%,最高也只有一個模型達到 25%,近 200 次嘗試中沒有完美證明。兩組研究均指出,面對需要長時間系統性推理的問題,模型表現急劇下降。

懷疑者與新證據

長期質疑神經網絡難以超越訓練分佈的 AI 研究者 Gary Marcus 稱蘋果研究結果「對大型語言模型(LLM)來說相當毀滅性」。他指出,1957 年 AI 先驅 Herb Simon 已能解決河內塔問題,網上也有多種算法,但即使給模型明確算法指引,表現仍無改善,顯示模型的過程並非真正邏輯或智能。

蘋果團隊發現,模擬推理模型在簡單謎題(如少量圓盤的河內塔)上反而表現不如「標準」模型,因為它們會「過度思考」,產生冗長且錯誤的思考鏈;在中等難度任務上,SR 模型的有條理方法帶來優勢;但在真正困難的任務(如 10 個以上圓盤的河內塔)上,兩者都完全失敗,無法完成謎題。

此外,研究揭示一種「反直覺的擴展限制」:當問題複雜度增加,SR 模型一開始會產生更多思考內容,但到達一定門檻後,儘管有足夠計算資源,推理努力反而減少。

模型失敗模式亦不一致,例如 Claude 3.7 Sonnet 在河內塔能連續正確完成 100 步,但在過河謎題中僅五步便失敗,顯示失敗或與任務特性有關,而非純粹算力問題。

不同詮釋與爭議

不過,並非所有研究者認同這些結果反映根本性的推理缺陷。多倫多大學經濟學家 Kevin A. Bryan 在社交媒體上表示,這些限制可能是訓練時刻意設定的計算時間限制,而非模型本身能力不足。

他認為,如果給人一個本來需一小時的問題,卻只給五分鐘,大多數人會提供近似解或啟發式解法。這與大型基礎模型透過強化學習訓練,避免過度計算的情況相似。

Bryan 指出,業界未公開的基準顯示,模型在推理步數增加時,表現通常會提升,但實際部署時會刻意限制推理長度,以免「過度思考」簡單問題。此說法暗示蘋果研究可能測量的是工程限制,而非根本推理瓶頸。

軟件工程師 Sean Goedecke 亦在其部落格提出類似批評,指出 DeepSeek-R1 面對需逾千步的河內塔問題時,會「立刻判斷手動生成所有步驟不可能」,然後嘗試找捷徑失敗,這是模型選擇不嘗試而非真無法完成任務。

另一位獨立 AI 研究者 Simon Willison 亦對河內塔測試的合理性提出質疑,認為這並非適合用來評估大型語言模型的方式,失敗可能是因為超出模型的上下文窗口限制,而非推理能力不足。他認為蘋果研究獲得廣泛關注,主要因為標題吸引人而非結論本身。

蘋果團隊自己也提醒,這些謎題測試代表推理任務的一小部分,未必涵蓋現實世界或知識密集型的推理問題。研究同時承認,模型在「中等複雜度」範圍內已有進步,且在部分實際應用中仍有價值。

結論與啟示

這兩項研究是否徹底摧毀了 AI 推理模型的可信度?未必。

更可能的是,SR 模型使用的延伸上下文推理技巧,或許並非通往通用人工智能的道路。未來若要實現更強大的推理能力,可能需要根本不同的技術路線,而非現有方法的改良。

目前生成式 AI 是一個充滿爭議的話題,支持者與批評者立場分明。蘋果研究結合 USAMO 發現,強化了像 Marcus 這類批評者的論點,即這些系統主要依賴複雜的模式匹配,而非真正系統化推理。事實上,生成式 AI 技術仍相當新穎,連開發者也未完全理解其運作原理。在此期間,AI 公司或許應該降低對推理和智能突破的誇大宣傳,以建立用戶信任。

不過,這並不代表這些 AI 模型毫無用處。即使是複雜的模式匹配機器,只要用戶了解其限制和會「編故事」的特性,仍能在減輕工作負擔上發揮作用。例如 Marcus 也承認,未來十年內,這些模型(無論有無推理能力)在編碼、頭腦風暴和寫作等方面仍會有用。

評論與啟發

蘋果這項研究為 AI 推理能力的現狀投下一顆震撼彈,提醒我們不能盲目相信大型語言模型(LLM)具備真正的邏輯推理能力。過去幾年,業界普遍以模型能生成流暢文字為依據,推斷它們能「思考」。但實際上,這些模型更像是高級的統計機器,根據大量資料匹配模式,而非像人類般逐步推理。

研究中所用的經典謎題,尤其是河內塔,長久以來是測試邏輯與計算能力的標準題目,蘋果團隊讓 AI 在此類問題上掙扎,凸顯了現有模型在系統性推理上的不足。這不僅是技術問題,也是 AI 發展路徑的關鍵挑戰。

然而,對於 Bryan 等人的反駁,我認為也不能忽視。實際部署的 AI 模型確實會在計算資源和時間上有限制,因此可能被訓練成「快速給出近似解」,而非花大量時間追求完美解答。這反映了 AI 工程中的現實妥協,也提醒我們評估 AI 能力時要考慮使用場景和設計目標。

Simon Willison 的觀點亦值得重視:用謎題來測試 LLM 是否合適?或許這種「硬核」邏輯測試不符合語言模型的設計初衷。LLM 擅長的是語言理解與生成,而非純粹的數學或演算法推理。未來 AI 評測標準,可能需要更多元化,結合不同能力維度。

總括而言,這項研究為 AI 社群提供了一個清醒的提醒:我們距離真正的「通用人工智能」還有一段路要走。現有的模型雖然強大,但仍有明顯局限。對公眾與產業來說,理性看待 AI 的能力與限制,避免過度炒作與恐慌,才是健康發展的關鍵。

未來,AI 研究或許需要跳出現有框架,尋找融合符號推理、因果推理等新方法,才能實現更接近人類思考的系統。蘋果這類嚴謹的實證研究,正是推動 AI 科技邁向更成熟階段的重要里程碑。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

✈️ Trip.com「內地快閃」機票+酒店半價

【每週二 10 AM】 立即領取 半價優惠代碼
最高減 HK$500,CP 值極高,先到先得!

立即搶優惠 🔗