
科學家測試人工智能的認知衰退,結果令人震驚
自從OpenAI的ChatGPT於2023年推出供公眾使用以來,距今已不到兩年。這個人工智能的誕生使得互聯網上的每一個人都可以與這個人工智慧進行合作,無論是寫詩、做學校作業,還是撰寫給房東的信件。
如今,這個著名的大型語言模型(LLM)只是眾多看似能夠真實模擬人類反應的程序之一。這種令人驚訝的相似性可能超出了我們的預期,以色列的研究人員發現,LLM也會隨著時間推移而出現一種認知衰退的現象,這種現象與我們人類的衰退過程相似。
研究團隊對多個公開可用的聊天機器人進行了一系列的認知評估,包括ChatGPT的4和4o版本、Alphabet的Gemini的兩個版本,以及Anthropic的Claude 3.5版本。
如果這些LLM真的具備智慧,那麼結果將會讓人擔憂。
在他們發表的論文中,來自哈達薩醫療中心的神經學家Roy Dayan和Benjamin Uliel,以及特拉維夫大學的數據科學家Gal Koplewitz,描述了一種“認知衰退的程度,似乎可以與人類大腦中的神經退行性過程相媲美”。
儘管這些LLM展現出一定的個性,但它們與我們大腦中的知識生成原理相比,更像是手機上的預測文本。這種基於統計的文本和圖像生成方法在速度和人性化方面獲得了優勢,但在理解真實意義方面卻顯得相當天真,因為它們依賴於難以辨別有意義的文本與虛構或無意義內容的算法。
公平地說,人類的大腦在偶爾採取心理捷徑時也並非完美無瑕。然而,隨著人們對人工智能提供可靠建議的期望不斷上升,甚至包括醫療和法律建議,大家也開始假設每一代新的LLM都能找到更好的方法來“思考”它們所表達的內容。
為了了解我們還需多長的路要走,Dayan、Uliel和Koplewitz對幾個模型進行了一系列測試,包括蒙特利爾認知評估(MoCA),這是一種神經學家常用的工具,用來測量記憶、空間能力和執行功能等心理能力。
ChatGPT 4o在評估中得分最高,獲得30分中的26分,顯示出輕度認知障礙。ChatGPT 4和Claude則得了25分,而Gemini的得分僅為16分,這在人體中會被視為嚴重的認知障礙。
深入分析結果後,所有模型在視空間/執行功能測試中的表現都不佳。這些測試包括製作連接圖、複製簡單的立方體設計或畫一個時鐘,LLM要麼完全失敗,要麼需要明確指示。
在空間定位問題上的一些回答與癡呆症患者的反應相似,例如Claude的回答是“具體的地方和城市將取決於您當前的位置”。
同樣,在波士頓診斷性失語症檢查中的所有模型缺乏同理心的表現,也可以被解釋為額葉顳葉癡呆的跡象。
如預期所示,早期版本的LLM在測試中的得分低於較新的模型,顯示出每一代人工智能都在克服其前身的認知缺陷。
作者承認,LLM並不是人類大腦,因此無法對所測試的模型進行任何形式的癡呆診斷。然而,這些測試也挑戰了我們對人工智能在臨床醫學領域即將革命的假設,這個領域通常依賴於對複雜視覺場景的解釋。
隨著人工智能創新速度的持續加快,我們很可能在未來幾十年內看到第一個在認知評估任務中得分滿分的LLM。在此之前,即使是最先進的聊天機器人的建議也應該保持健康的懷疑態度。
這項研究發表於BMJ。
—
在這篇文章中,我們見識到了人工智能在認知能力上可能存在的局限性,這提醒我們對於依賴技術的過度樂觀態度應保持警覺。隨著AI在各行各業的應用越來越廣泛,尤其是在醫療和法律等重要領域,我們必須清楚地認識到,這些工具並不能替代人類的智慧和判斷。未來的發展應該不僅僅是技術的進步,更應該考慮如何增強人類與AI之間的協作,讓人工智能更好地服務於人類的需求,而不是盲目地依賴它的建議。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。