AI都有腦霧?研究話Chatbot認知能力似人腦退化咁!

Ai

人工智能模型會出現腦霧嗎?這問題頗為複雜

一項來自以色列的研究顯示,主流的人工智能(AI)聊天機器人可能遭受輕度的認知衰退,這一結論在業界引發了不小的爭議,批評者認為這一結論不合理,因為機器人並非按照人類大腦的方式進行推理。

自從特朗普擔任總統以來,他多次自誇自己在一項廣泛使用的輕度認知障礙篩查測試中「表現出色」。特朗普經常重複自己的答案——「人、女人、男人、相機、電視」——以展示他的心理健康。

以色列的研究者將這一測試應用於一些頂尖的AI聊天機器人,結果發現特朗普的表現超過了這些機器。

這項研究的首席作者承認,他在傳遞一個嚴肅的訊息時也帶著一絲幽默感。他們自信地總結道:「這些發現挑戰了人工智能很快會取代人類醫生的假設,因為主流聊天機器人中顯示的認知障礙可能會影響它們在醫學診斷中的可靠性,從而削弱患者的信心。」這一結論及其研究方法幾乎與特朗普的名字一樣引起了極大的爭議。一些批評者對於媒體對這一發現的反應感到驚訝,該研究發表在BMJ的聖誕特刊中,該期刊以幽默和諷刺著稱,並有著一些著名的文章。

「我們有點驚訝」AI的表現不佳,耶路撒冷哈達薩醫療中心的神經科醫生羅伊·達揚(Roy Dayan)表示,這項結果應該能讓醫生,尤其是神經科醫生感到欣慰。他說:「我認為我們還有幾年不會被取代。」

與蒙特利爾認知評估測試的較量

這項篩查工具名為蒙特利爾認知評估(MoCA),由加拿大神經科醫生齊亞德·納斯雷丁(Ziad Nasreddine)於25年前推出,現已廣泛使用。在這個簡短的測試中,臨床醫生評估各種認知技能:視覺空間(如畫出正確時間的時鐘面);記憶和延遲記憶(例如特朗普的「人、女人、男人」的回應);以及執行功能、語言和定向能力。

「AI是一個驚人的工具,」達揚補充道,但許多醫療專業人士擔心,機器人表現得如此出色,以至於會威脅到他們的生計。他說:「對於許多醫生和患者來說,某些醫學方面將更容易被取代,」這尤其令放射學和病理學領域的人士感到擔憂,因為AI在模式識別方面的能力非常強。事實上,AI在某些領域的考試中已超過人類醫生的表現(有證據顯示,僅靠AI的表現比使用AI的醫生更好)。

儘管AI工具「幻覺」引用不存在的研究的傾向是眾所周知的,但在達揚及其同事為BMJ進行測試之前,尚無任何模型被測試過「認知衰退」。

「我們的主要目標不是批評AI,」他說,而是「檢視它們對這些非常人類的缺陷的脆弱性。」

該團隊對五個領先的公開可用聊天機器人進行了MoCA測試:OpenAI的ChatGPT 4和4o,Anthropic的Claude 3.5,以及谷歌的Gemini 1和更先進的Gemini 1.5。人類與機器人之間的主要區別在於,問題是通過文本而非語音提出的。

ChatGPT 4o的得分最高,為26分——勉強通過輕度認知衰退的閾值——其次是ChatGPT 4和Claude 3.5,均為25分。Gemini 1.5的得分為22,而Gemini 1的得分為16,顯示出「更嚴重的認知損害」的狀態,作者寫道。所有聊天機器人在記憶、注意力、物體命名和回憶方面表現良好,但兩個Gemini機器人在延遲回憶的測試中表現不佳。

這些機器人在視覺空間測試中表現不佳;沒有一個能夠正確畫出一個立方體。即使被要求使用ASCII字符畫出正確時間的時鐘面,所有機器人都無法做到。兩個版本畫出的時鐘面更像是酪梨而不是圓形。Gemini則在文本中輸出「11點10分」,但時鐘面卻顯示為4:05。

達揚表示,這些機器人「必須先將所有內容轉換為文字,然後再轉換回視覺」,而人類在被告知時間時更能夠想象時鐘面上的時間。他說,人類的轉換更容易,因為「在我們的大腦中,我們已經具備了抽象能力」。

這些機器人還難以描述一幅關於餅乾被偷的畫作的整體意義,畫中描繪了一位分心的母親和她的孩子們在廚房裡。雖然它們準確地描述了畫作的某些部分,但未能注意到母親對一個從凳子上摔下來的小男孩偷餅乾的情況毫不關心——這顯示出缺乏同理心。

AI:最高級別的類別錯誤

對這項研究的批評者對其結論感到擔憂。其中一個批評來自Claude 3.5,該模型被發現有認知衰退的情況:它表示「將人類神經評估應用於人工智能系統是最高級別的類別錯誤。」它說:「因為它在視覺空間任務中表現不佳而聲稱一個大型語言模型(LLM)有『癡呆症』,就像因為一艘潛艇無法呼吸空氣而診斷它有哮喘一樣。」

「我明白這篇文章是以輕鬆的口吻寫的,但有很多記者卻認真報導了這一點,」斯坦福大學醫學院的生物醫學科學助理教授羅克薇娜·達內什朱(Roxana Daneshjou)表示。她和其他人批評作者使用「認知衰退」這個詞,而不是「表現變化」或「表現漂移」,這使得文章獲得了不應有的可信度。

該研究的一個主要問題在於「他們只測試了一次」,儘管他們使用的模型在研究期間有所更新,達內什朱說。「他們從一個月到下一個月測試的版本實際上會有所變化。更新的版本通常表現比舊版本更好,這不是因為舊模型有認知衰退,而是因為新的設計得更好。」

儘管達內什朱表示,她理解某些臨床醫生對被AI取代的焦慮,但更大的問題是醫療系統已經人手不足。她說:「人類永遠是需要的。」「沒有任何模型能夠提供綜合醫療護理。」

即使是開發MoCA測試的神經科醫生也對這項「有趣」的研究表示擔憂。「MoCA是設計用來評估人類認知的,」納斯雷丁說,他是加拿大魁北克MoCA認知記憶的創始人。「人類的反應方式多種多樣,但只有有限的反應是可以接受的。」

由於AI模型本不應該學習良好得分的規則,它們必須預測每個任務的預期正確回應。「更新的LLM可能獲得了更多數據或更好的預測模型,這可能改善了它們的表現,」他說。

亞特蘭大埃默里大學醫學院的腫瘤學副教授拉維·帕里克(Ravi Parikh)在COVID-19疫情期間親身目睹了人類在AI「表現漂移」中的角色。他是研究的主要作者之一,研究發現一個預測癌症死亡率的AI算法的準確性下降了近7個百分點。

「COVID實際上改變了這些預測算法的輸出——不是COVID本身,而是COVID時期的護理,」帕里克說。這主要是因為患者轉向了遠程醫療,實驗室檢查變得「不那麼常規」,他說。「待在家裡是一個人類的決定,這不是AI的錯。人類需要認識到這是一個問題。」

達揚表示,儘管研究結果如此,他仍然喜愛AI,他認為這項研究很自然地適合輕鬆的BMJ聖誕特刊。

「我希望沒有造成傷害,」他半開玩笑地說。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon