GPT諗嘢唔掂過人?研究話AI理解力差過你想像!

Ai

為什麼GPT無法像我們一樣思考

人工智能(AI),尤其是像GPT-4這樣的大型語言模型,在推理任務上表現出色。但AI是否真正理解抽象概念,還是僅僅在模仿模式?阿姆斯特丹大學和聖塔菲研究所的一項新研究顯示,儘管GPT模型在某些類比任務上表現良好,但當問題稍作改動時,它們的表現卻不如預期,突顯了AI推理能力的關鍵弱點。

類比推理的重要性

類比推理是指根據某些方面的相似性在兩個不同事物之間進行比較的能力。這是人類理解世界和做出決策的最常見方法之一。例如,類比推理的例子是:杯子對咖啡就如碗對湯(答案是碗)。

大型語言模型如GPT-4在各種測試中表現良好,包括需要類比推理的測試。但AI模型是否真的能進行一般性、穩健的推理,還是過度依賴其訓練數據中的模式?阿姆斯特丹大學邏輯、語言與計算研究所的語言與AI專家瑪莎·劉易斯和聖塔菲研究所的梅蘭妮·米切爾進行了這項研究,檢視GPT模型在類比推理中的靈活性和穩健性。劉易斯解釋道:「這一點至關重要,因為AI在現實世界的決策和問題解決中越來越多地被使用。」

AI模型與人類表現的比較

劉易斯和米切爾比較了人類和GPT模型在三種不同類比問題上的表現:

1. 字母序列——識別字母序列中的模式並正確完成它們。
2. 數字矩陣——分析數字模式並確定缺失的數字。
3. 故事類比——理解哪兩個故事最能對應給定的例子故事。

一個真正理解類比的系統,即使在變化的情況下也應保持高性能。

GPT模型的脆弱性

研究不僅測試了GPT模型解決原始問題的能力,還檢視了它們在問題稍作改動後的表現。作者在文章中指出:「一個真正理解類比的系統即使在這些變化中也應保持高性能。」

在人類在大多數修改版本的問題上保持高表現的同時,GPT模型在標準類比問題上表現良好,但在變化的情況下卻掙扎。劉易斯解釋說:「這表明AI模型的推理靈活性往往不及人類,他們的推理更多是關於模式匹配,而非真正的抽象理解。」

在數字矩陣中,當缺失數字的位置改變時,GPT模型的表現顯著下降,而人類則毫無困難。在故事類比中,GPT-4傾向於更頻繁地選擇第一個給定的答案作為正確答案,而人類不會受到答案順序的影響。此外,當故事的關鍵元素被重新措辭時,GPT-4的表現也比人類更差,這暗示著它更多依賴表面上的相似性,而非更深層的因果推理。

在較簡單的類比任務中,GPT模型在測試修改版本時表現下降,而人類則保持穩定。然而,在更複雜的類比推理任務中,人類和AI都面臨挑戰。

人類認知的弱點

這項研究挑戰了廣泛存在的假設,即像GPT-4這樣的AI模型能以與人類相同的方式進行推理。劉易斯和米切爾總結道:「雖然AI模型展現出驚人的能力,但這並不意味著它們真正理解自己在做什麼。他們在變化中的泛化能力仍然顯著弱於人類認知。GPT模型往往依賴於表面模式,而非深刻的理解。」

這對於在教育、法律和醫療等重要決策領域使用AI是一個關鍵的警示。AI可以是一個強大的工具,但尚未能取代人類的思考和推理能力。

這項研究的啟示在於,儘管我們在技術上取得了驚人的進步,但人工智能仍然無法完全替代人類的思維方式。這不僅是對AI的挑戰,也是對我們如何理解和利用這些技術的一個提醒。我們需要在使用AI進行決策時,保持警惕和批判的態度,並意識到人類的直覺和深層理解在許多情境中仍不可或缺。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon