GPT諗嘢唔似人?研究揭AI理解力弱過人類!

Ai

為什麼GPT無法像我們一樣思考

人工智能(AI),特別是像GPT-4這樣的大型語言模型,在推理任務中表現出色。但AI是否真的理解抽象概念,還是僅僅在模仿模式?來自阿姆斯特丹大學和聖塔菲研究所的一項新研究顯示,儘管GPT模型在某些類比任務上表現良好,但當問題被改變時,它們的表現卻不如預期,這突顯了AI推理能力的關鍵弱點。

類比推理的重要性

類比推理是根據某些方面的相似性在兩個不同事物之間進行比較的能力。這是人類理解世界和做出決策的最常見方法之一。例如:杯子對咖啡如同湯對???(答案是:碗)。

像GPT-4這樣的大型語言模型在各種測試中表現良好,包括那些需要類比推理的測試。但AI模型是否真的能進行一般性、穩健的推理,還是過度依賴於訓練數據中的模式?由語言和AI專家瑪莎·路易斯(阿姆斯特丹大學邏輯、語言與計算研究所)和梅蘭妮·米切爾(聖塔菲研究所)進行的這項研究檢視了GPT模型在進行類比時是否像人類一樣靈活和穩健。路易斯解釋道:「這是至關重要的,因為AI在現實世界中越來越多地被用於決策和解決問題。」

比較AI模型與人類的表現

路易斯和米切爾比較了人類和GPT模型在三種不同類型的類比問題上的表現:

1. 字母序列——識別字母序列中的模式並正確完成它們。
2. 數字矩陣——分析數字模式並確定缺失的數字。
3. 故事類比——理解哪兩個故事最符合給定的例子故事。

作者在文章中指出:「一個真正理解類比的系統,即使在變化的情況下也應該保持高效能。」

GPT模型的穩定性問題

人類在大多數修改後的問題上保持了高效能,但GPT模型在標準類比問題上表現良好,卻在變化的情況下掙扎。路易斯解釋道:「這表明,AI模型的推理靈活性通常不及人類,它們的推理更多是基於模式匹配,而非真正的抽象理解。」

在數字矩陣中,當缺失數字的位置改變時,GPT模型的表現顯著下降,而人類則毫無困難。在故事類比中,GPT-4傾向於更頻繁地選擇第一個給出的答案作為正確答案,而人類則不受答案順序的影響。此外,當故事的關鍵元素被重新措辭時,GPT-4的表現比人類更差,這表明它依賴於表面相似性而非深層因果推理。

在較簡單的類比任務中,GPT模型在測試修改版本時表現下降,而人類則保持穩定。然而,在更複雜的類比推理任務中,人類和AI均面臨困難。

人類認知的弱點

這項研究挑戰了普遍認為像GPT-4這樣的AI模型能以與人類相同的方式進行推理的假設。路易斯和米切爾總結道:「儘管AI模型展現出令人印象深刻的能力,但這並不意味著它們真正理解自己在做什麼。它們在變化中的概括能力仍然遠弱於人類認知。GPT模型往往依賴於表面模式,而非深層理解。」

這對於在教育、法律和醫療等重要決策領域使用AI發出了重要警告。AI可以是一個強大的工具,但它尚未能取代人類的思維和推理。

這篇文章對於AI的推理能力提出了重要的質疑,特別是在當前的科技環境中,AI的應用範圍越來越廣。雖然AI在某些任務上表現出色,但我們不應該忽視它在理解和推理方面的局限性。這提醒我們,無論技術如何進步,最終的決策仍然需要人類的智慧和深思熟慮的判斷。這樣的研究有助於我們更好地理解AI的潛力與限制,並在未來進一步探索人類與AI之間的協作方式。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon