蘋果研究揭示大型語言模型「推理」能力的深層裂縫
在過去一段時間,OpenAI 和 Google 等公司一直在宣傳其最新人工智能模型的先進「推理」能力,作為下一個重大突破。然而,蘋果的六位工程師最近的一項研究顯示,在面對看似微不足道的常見基準問題的變化時,這些先進的大型語言模型(LLM)的數學「推理」能力可以非常脆弱且不可靠。
這些新結果所突顯的脆弱性支持了先前的研究,這些研究表明,LLM 使用的概率模式匹配缺乏真正可靠的數學推理能力所需的基礎概念理解。「當前的 LLM 無法進行真正的邏輯推理,」研究人員根據這些結果推測。「相反,它們試圖複製在訓練數據中觀察到的推理步驟。」
變化測試
在名為「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的預印本論文中,六位蘋果研究員首先使用了 GSM8K 的標準化數據集,該數據集包含超過 8,000 個小學數學文字題,通常用作現代 LLM 複雜推理能力的基準測試。然後,他們採取了一種新穎的方法,動態替換測試集中某些名字和數字——例如,GSM8K 中關於 Sophie 給她的侄子 31 塊積木的問題,可以變成在新的 GSM-Symbolic 評估中 Bill 給他弟弟 19 塊積木的問題。
這種方法有助於避免將靜態 GSM8K 問題直接輸入 AI 模型的訓練數據中可能導致的「數據污染」。同時,這些偶然的變化並不會改變內在數學推理的實際難度,這意味著理論上模型在 GSM-Symbolic 和 GSM8K 上的表現應該一樣好。
然而,當研究人員在 GSM-Symbolic 上測試了超過 20 種最先進的 LLM 時,他們發現與 GSM8K 相比,平均準確率在各個模型中均有所下降,降幅在 0.3% 到 9.2% 之間。結果還顯示,在 50 次不同的 GSM-Symbolic 測試中,準確率的變異性很大,單一模型內最佳和最差運行之間的準確率差異高達 15%。某些原因導致改變數字比改變名字更容易導致準確率下降。
這種在不同 GSM-Symbolic 運行中以及與 GSM8K 結果相比的變異性,令研究人員感到驚訝,因為正如他們所指出的,「解決問題所需的整體推理步驟保持不變。」這種小變化導致的結果變異性表明,這些模型並沒有進行任何「正式」的推理,而是「試圖進行某種分布內模式匹配,將給定的問題和解決步驟與訓練數據中看到的類似問題和步驟對齊。」
不要被干擾
儘管如此,GSM-Symbolic 測試顯示的整體變異性在大多數情況下相對較小。例如,OpenAI 的 ChatGPT-4o 在 GSM8K 上的準確率從 95.2% 降至在 GSM-Symbolic 上仍然令人印象深刻的 94.9%。無論模型本身是否在幕後使用「正式」推理,這兩個基準測試的成功率都相當高(儘管當研究人員在問題中增加一兩個額外的邏輯步驟時,許多模型的總體準確率急劇下降)。
然而,當蘋果研究人員通過向問題中添加「看似相關但最終無關緊要的陳述」來修改 GSM-Symbolic 基準時,被測試的 LLM 表現得更差。對於這個「GSM-NoOp」基準集(意為「無操作」),例如關於某人多天內採摘多少奇異果的問題可能會被修改為包括「其中五個奇異果比平均水平小一些」的偶然細節。
添加這些混淆視聽的細節導致研究人員所稱的準確率「災難性下降」,與 GSM8K 相比,降幅在 17.5% 到 65.7% 之間,具體取決於所測試的模型。這些大幅度的準確率下降突顯了使用簡單「模式匹配」將陳述轉換為操作而不真正理解其含義的內在限制。
例如,在包含較小奇異果的例子中,大多數模型試圖從最終總數中減去較小的水果,因為研究人員推測,「其訓練數據集中包含了需要轉換為減法操作的類似例子。」這是一種「關鍵缺陷」,研究人員表示,「這表明模型的推理過程中存在更深層次的問題」,這些問題無法通過微調或其他改進來解決。
理解的幻覺
這項新的 GSM-Symbolic 論文的結果在 AI 研究領域並不完全是新的。其他最近的論文同樣表明,LLM 實際上並沒有進行正式推理,而是通過其龐大的訓練集中的最接近類似數據的概率模式匹配來模仿推理。
儘管如此,新的研究突顯了當問題推動其朝著與任何訓練數據不完全匹配的方向時,這種模仿可能有多麼脆弱。它還突顯了在沒有任何邏輯或世界的基礎模型的情況下進行高級推理的內在限制。正如 Ars 的 Benj Edwards 在七月關於 AI 視頻生成的一篇文章中所說:
OpenAI 的 GPT-4 在文本合成中引起轟動的原因之一是,該模型終於達到了足夠大的規模,能夠吸收足夠的信息(在訓練數據中),給人一種它可能真正理解並建模世界的印象,而實際上,其成功的一個關鍵方面是它「知道」的比大多數人多,並且可以通過以新穎的方式組合這些現有概念來打動我們。隨著訓練數據和計算量的增加,AI 行業最終可能會達到所謂的「理解的幻覺」…
我們很可能在 AI 的最新「推理」模型中看到了類似的「理解的幻覺」,並且看到當模型遇到意外情況時,這種幻覺如何破滅。
AI 專家 Gary Marcus 在分析新的 GSM-Symbolic 論文時認為,AI 能力的下一個重大飛躍只有在這些神經網絡能夠整合真正的「符號操作」時才會出現,其中一些知識以變量和變量之間的操作的抽象形式表示,就像我們在代數和傳統計算機編程中看到的那樣……在那之前,我們將會得到那種易碎的「推理」,這可能會導致 AI 模型在數學測試中以計算器永遠不會失敗的方式失敗。
—
編者評論:
這篇文章深入探討了當前大型語言模型在數學推理上的局限,尤其是在面對微小變化或無關緊要的干擾信息時的表現差異。這揭示了這些模型在真正理解和推理方面的根本缺陷,不過是通過大量訓練數據進行的概率模式匹配而已。這種「理解的幻覺」不僅在數學推理中顯而易見,還可能在其他需要深層次理解和推理的應用中暴露無遺。
這對於依賴 AI 進行決策或推理的行業來說是一個重要警示。我們不能僅僅因為 AI 在某些標準化測試中的高分表現就盲目信任其推理能力。未來的 AI 發展需要在符號操作和抽象理解方面取得突破,才能真正實現可靠且高效的推理能力。這也提醒我們在使用 AI 工具時要保持謹慎,不應過分依賴其表面上的智能,應該深入了解其底層機制和局限。
以上文章由特價GPT API KEY所翻譯