蘋果工程師揭示 AI “推理” 的脆弱性
一直以來,像 OpenAI 和 Google 這樣的公司都在宣傳其最新人工智能模型的先進“推理”能力,並將其視為下一個重大進步。然而,來自六名蘋果工程師的一項新研究顯示,高級大型語言模型所展示的數學“推理”在面對看似微不足道的基準問題變化時,可能極其脆弱且不可靠。
這些新結果所揭示的脆弱性支持了先前的研究,這些研究表明 LLMs 使用的概率模式匹配缺乏對底層概念的形式理解,從而無法實現真正可靠的數學推理能力。研究人員根據這些結果假設,“當前的 LLMs 無法進行真正的邏輯推理,”他們“試圖複製在其訓練數據中觀察到的推理步驟。”
變換測試方法
在“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”這篇預印本論文中,六名蘋果研究人員從 GSM8K 的標準化超過 8,000 個小學數學文字問題集開始,這通常用作現代 LLMs 複雜推理能力的基準。他們採取了一種新方法,動態替換測試集中某些名稱和數字的新值——例如,GSM8K 中關於 Sophie 給她的侄子購買 31 塊積木的問題,在新的 GSM-Symbolic 評估中可能變成 Bill 給他的兄弟購買 19 塊積木的問題。
這種方法有助於避免將靜態 GSM8K 問題直接輸入 AI 模型的訓練數據中可能導致的“數據污染”。同時,這些偶然的改變並不會改變內在數學推理的實際難度,這意味著理論上模型在 GSM-Symbolic 和 GSM8K 上的表現應該一樣好。
然而,當研究人員在 GSM-Symbolic 上測試了超過 20 種最先進的 LLMs 時,他們發現與 GSM8K 相比,平均準確率普遍下降,具體取決於模型,性能下降在 0.3% 至 9.2% 之間。該結果還顯示出在 50 次不同名稱和數值的 GSM-Symbolic 運行中,高度的變異性。同一模型的最佳和最差運行之間的準確率差距可達 15%,而且更改數字比更改名稱更容易導致準確率下降。
這種變異性——無論是在不同的 GSM-Symbolic 運行中還是與 GSM8K 結果相比——都相當令人驚訝,因為正如研究人員指出的那樣,“解決問題所需的整體推理步驟是相同的。”這些微小變化導致如此多變的結果,表明這些模型並沒有進行任何“形式”推理,而是“試圖進行一種在分佈內的模式匹配,將給定的問題和解決步驟與訓練數據中看到的類似步驟對齊。”
避免分心
儘管如此,GSM-Symbolic 測試的整體變異性在大局上通常相對較小。例如,OpenAI 的 ChatGPT-4o 在 GSM8K 上的準確率從 95.2% 下降到 GSM-Symbolic 上的仍然令人印象深刻的 94.9%。這無論模型本身是否在幕後使用“形式”推理,這都是一個相當高的成功率(儘管當研究人員在問題中添加一兩個額外的邏輯步驟時,許多模型的總準確率急劇下降)。
然而,當蘋果研究人員通過在問題中添加“看似相關但最終無關緊要的陳述”來修改 GSM-Symbolic 基準時,測試的 LLMs 表現要差得多。對於這個“GSM-NoOp”基準集(“無操作”的縮寫),一個關於某人多日摘取多少奇異果的問題可能會被修改為包含“其中五個(奇異果)比平均水平稍小”的偶然細節。
添加這些干擾因素導致準確率相對 GSM8K 出現了研究人員所稱的“災難性性能下降”,具體取決於測試的模型,準確率下降範圍從 17.5% 到高達 65.7%。這些大幅度的準確率下降突顯了使用簡單“模式匹配”來“將陳述轉換為操作而不真正理解其含義”的內在局限性。
例如,在這個關於較小奇異果的例子中,大多數模型試圖從最終總數中減去較小的水果,因為研究人員推測,“其訓練數據集中包含了需要轉換為減法操作的類似例子。”這是一種“關鍵缺陷”,研究人員認為“這表明了[模型]推理過程中的更深層次問題”,這些問題無法通過微調或其他改進來解決。
理解的幻覺
這篇新的 GSM-Symbolic 論文的結果在 AI 研究領域並不完全新鮮。其他最近的論文同樣表明,LLMs 實際上並不進行形式推理,而是通過其龐大訓練集中的最相似數據的概率模式匹配來模仿推理。
儘管如此,這項新研究突顯了當問題提示將模型推向與任何訓練數據不完全匹配的方向時,這種模仿是多麼脆弱。它還突顯了在沒有任何背後邏輯或世界模型的情況下試圖進行高級推理的內在局限性。正如 Ars 的 Benj Edwards 在一篇關於 AI 視頻生成的七月文章中所說:
OpenAI 的 GPT-4 在文本合成方面引起轟動的原因之一是,該模型終於達到了足夠大的規模,吸收了足夠多的信息(在訓練數據中),給人以它可能能夠真實理解並建模世界的印象,而實際上,其成功的一個關鍵方面是它“知道”的遠遠超過大多數人,並且可以通過以新穎的方式組合這些現有概念來讓我們印象深刻。隨著足夠的訓練數據和計算,AI 行業最終可能會在 AI 視頻合成方面達到你可以稱之為“理解的幻覺”的地步……
我們可能正在看到 AI 最新“推理”模型的類似“理解的幻覺”,並看到當模型遇到意外情況時,這種幻覺如何破裂。
AI 專家 Gary Marcus 在對新 GSM-Symbolic 論文的分析中指出,AI 能力的下一次重大飛躍將只有在這些神經網絡能夠整合真正的“符號操作”時才會來臨,其中一些知識以變量和這些變量上的操作的形式抽象表示,就像我們在代數和傳統計算機編程中看到的那樣……在那之前,我們將看到這種脆弱的“推理”,這可能會導致 AI 模型以計算器從未有過的方式在數學測試中失敗。
編者評論:
這篇文章揭示了當前 AI 技術的一個重要弱點,即在數學推理方面的脆弱性和不可靠性。雖然大型語言模型在某些情況下展示了高度準確的結果,但這些結果往往依賴於訓練數據中的模式匹配,而非真正的邏輯推理。這對於依賴 AI 進行高級數學運算或需要精確推理的應用來說,無疑是一個重大的挑戰。
從這個角度看,AI 的進一步發展需要突破目前的模式匹配局限,實現真正的符號操作和抽象推理。這不僅需要技術上的創新,也需要在 AI 訓練數據和算法設計上的全新思考。
對於香港的讀者來說,這篇文章提醒我們在使用 AI 技術時應保持謹慎,不應過度依賴其表面的“智能”。在未來,隨著技術的不斷進步,我們期待看到更可靠和強大的 AI 系統,但在此之前,我們需要清醒地認識到其現有的局限性。
以上文章由特價GPT API KEY所翻譯