蘋果新研究揭露：AI真係唔識真正推理？

zero comment

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

蘋果最新研究挑戰 AI 模型是否真能「推理」解難

今年六月初，蘋果研究團隊發表了一項研究，指出模擬推理（Simulated Reasoning, SR）模型，例如 OpenAI 的 o1 和 o3、DeepSeek-R1 以及 Claude 3.7 Sonnet Thinking，在面對需要系統性思考的新問題時，產出的結果其實只是基於訓練資料的模式匹配，而非真正的邏輯推理。這與四月美國數學奧林匹克（USAMO）的一項研究結論相似，這些模型在新穎數學證明上的表現分數甚低。

這項題為「思考的幻象：從問題複雜度角度理解推理模型的優劣」的研究，由蘋果團隊 Parshin Shojaee 和 Iman Mirzadeh 領銜，並有 Keivan Alizadeh、Maxwell Horton、Samy Bengio 和 Mehrdad Farajtabar 參與。

研究人員檢視所謂「大型推理模型」（Large Reasoning Models, LRMs），這類模型嘗試透過產生所謂「鏈式思考」（chain-of-thought）文字輸出，模擬邏輯推理過程，理論上幫助逐步解決問題。

為此，他們讓 AI 模型挑戰四個經典謎題：河內塔（Tower of Hanoi，移動圓盤）、跳棋跳子（消除棋子）、過河問題（運輸帶限制物品）和積木世界（堆疊積木）。這些謎題從非常簡單（如一個圓盤的河內塔）到極度複雜（20個圓盤的河內塔，需超過百萬步驟）都有涵蓋。

研究指出，現時對 AI 模型的評估主要著眼於數學和編碼題目最後答案的正確性，卻忽略了模型是否真的透過推理得出答案，還是單純從訓練資料中套用模式。

最終結果與 USAMO 研究類似：這些模型在新數學證明題中大多得分不足 5%，最高也只有一個模型達到 25%，近 200 次嘗試中沒有完美證明。兩組研究均指出，面對需要長時間系統性推理的問題，模型表現急劇下降。

懷疑者與新證據

長期質疑神經網絡難以超越訓練分佈的 AI 研究者 Gary Marcus 稱蘋果研究結果「對大型語言模型（LLM）來說相當毀滅性」。他指出，1957 年 AI 先驅 Herb Simon 已能解決河內塔問題，網上也有多種算法，但即使給模型明確算法指引，表現仍無改善，顯示模型的過程並非真正邏輯或智能。

蘋果團隊發現，模擬推理模型在簡單謎題（如少量圓盤的河內塔）上反而表現不如「標準」模型，因為它們會「過度思考」，產生冗長且錯誤的思考鏈；在中等難度任務上，SR 模型的有條理方法帶來優勢；但在真正困難的任務（如 10 個以上圓盤的河內塔）上，兩者都完全失敗，無法完成謎題。

此外，研究揭示一種「反直覺的擴展限制」：當問題複雜度增加，SR 模型一開始會產生更多思考內容，但到達一定門檻後，儘管有足夠計算資源，推理努力反而減少。

模型失敗模式亦不一致，例如 Claude 3.7 Sonnet 在河內塔能連續正確完成 100 步，但在過河謎題中僅五步便失敗，顯示失敗或與任務特性有關，而非純粹算力問題。

不同詮釋與爭議

不過，並非所有研究者認同這些結果反映根本性的推理缺陷。多倫多大學經濟學家 Kevin A. Bryan 在社交媒體上表示，這些限制可能是訓練時刻意設定的計算時間限制，而非模型本身能力不足。

他認為，如果給人一個本來需一小時的問題，卻只給五分鐘，大多數人會提供近似解或啟發式解法。這與大型基礎模型透過強化學習訓練，避免過度計算的情況相似。

Bryan 指出，業界未公開的基準顯示，模型在推理步數增加時，表現通常會提升，但實際部署時會刻意限制推理長度，以免「過度思考」簡單問題。此說法暗示蘋果研究可能測量的是工程限制，而非根本推理瓶頸。

軟件工程師 Sean Goedecke 亦在其部落格提出類似批評，指出 DeepSeek-R1 面對需逾千步的河內塔問題時，會「立刻判斷手動生成所有步驟不可能」，然後嘗試找捷徑失敗，這是模型選擇不嘗試而非真無法完成任務。

另一位獨立 AI 研究者 Simon Willison 亦對河內塔測試的合理性提出質疑，認為這並非適合用來評估大型語言模型的方式，失敗可能是因為超出模型的上下文窗口限制，而非推理能力不足。他認為蘋果研究獲得廣泛關注，主要因為標題吸引人而非結論本身。

蘋果團隊自己也提醒，這些謎題測試代表推理任務的一小部分，未必涵蓋現實世界或知識密集型的推理問題。研究同時承認，模型在「中等複雜度」範圍內已有進步，且在部分實際應用中仍有價值。

結論與啟示

這兩項研究是否徹底摧毀了 AI 推理模型的可信度？未必。

更可能的是，SR 模型使用的延伸上下文推理技巧，或許並非通往通用人工智能的道路。未來若要實現更強大的推理能力，可能需要根本不同的技術路線，而非現有方法的改良。

目前生成式 AI 是一個充滿爭議的話題，支持者與批評者立場分明。蘋果研究結合 USAMO 發現，強化了像 Marcus 這類批評者的論點，即這些系統主要依賴複雜的模式匹配，而非真正系統化推理。事實上，生成式 AI 技術仍相當新穎，連開發者也未完全理解其運作原理。在此期間，AI 公司或許應該降低對推理和智能突破的誇大宣傳，以建立用戶信任。

不過，這並不代表這些 AI 模型毫無用處。即使是複雜的模式匹配機器，只要用戶了解其限制和會「編故事」的特性，仍能在減輕工作負擔上發揮作用。例如 Marcus 也承認，未來十年內，這些模型（無論有無推理能力）在編碼、頭腦風暴和寫作等方面仍會有用。

—

評論與啟發

蘋果這項研究為 AI 推理能力的現狀投下一顆震撼彈，提醒我們不能盲目相信大型語言模型（LLM）具備真正的邏輯推理能力。過去幾年，業界普遍以模型能生成流暢文字為依據，推斷它們能「思考」。但實際上，這些模型更像是高級的統計機器，根據大量資料匹配模式，而非像人類般逐步推理。

研究中所用的經典謎題，尤其是河內塔，長久以來是測試邏輯與計算能力的標準題目，蘋果團隊讓 AI 在此類問題上掙扎，凸顯了現有模型在系統性推理上的不足。這不僅是技術問題，也是 AI 發展路徑的關鍵挑戰。

然而，對於 Bryan 等人的反駁，我認為也不能忽視。實際部署的 AI 模型確實會在計算資源和時間上有限制，因此可能被訓練成「快速給出近似解」，而非花大量時間追求完美解答。這反映了 AI 工程中的現實妥協，也提醒我們評估 AI 能力時要考慮使用場景和設計目標。

Simon Willison 的觀點亦值得重視：用謎題來測試 LLM 是否合適？或許這種「硬核」邏輯測試不符合語言模型的設計初衷。LLM 擅長的是語言理解與生成，而非純粹的數學或演算法推理。未來 AI 評測標準，可能需要更多元化，結合不同能力維度。

總括而言，這項研究為 AI 社群提供了一個清醒的提醒：我們距離真正的「通用人工智能」還有一段路要走。現有的模型雖然強大，但仍有明顯局限。對公眾與產業來說，理性看待 AI 的能力與限制，避免過度炒作與恐慌，才是健康發展的關鍵。

未來，AI 研究或許需要跳出現有框架，尋找融合符號推理、因果推理等新方法，才能實現更接近人類思考的系統。蘋果這類嚴謹的實證研究，正是推動 AI 科技邁向更成熟階段的重要里程碑。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

蘋果新研究揭露：AI真係唔識真正推理？

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

chatgpt

✈️ Trip.com「內地快閃」機票＋酒店半價！

蘋果新研究揭露：AI真係唔識真正推理？

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年！

chatgpt

Related Articles

ChatGPT隱藏技巧 11招提升工作效率

Google Zero來襲 網絡流量大崩潰？

2025最佳本地離線編程大語言模型推薦

✈️ Trip.com「內地快閃」機票＋酒店半價！

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

Google Zero來襲網絡流量大崩潰？