年長的AI聊天機器人顯示出認知衰退的跡象
根據最新發表在《BMJ》期刊的研究,某些科技行業領先的聊天機器人正在顯示出輕度認知障礙的明顯跡象。這些AI模型雖然在許多任務上表現出色,但隨著年齡增長,表現卻越來越差,尤其是大型語言模型中表現最差的幾個。
這項研究的目的並不是要對這些AI進行醫學診斷,而是想要反駁一波關於這些技術能夠有效用於醫療領域,特別是在診斷工具方面的研究浪潮。研究人員指出:「這些發現挑戰了人工智能將很快取代人類醫生的假設,因為領先聊天機器人中顯示出的認知障礙可能會影響其在醫療診斷中的可靠性,並削弱患者的信心。」
生成性老年醫學
本次研究中的AI模型包括OpenAI的GPT-4和GPT-4o、Anthropic的Claude 3.5 Sonnet,以及Google的Gemini 1.0和1.5。在蒙特利爾認知評估(MoCA)測試中,GPT-4o的得分最高(30分中得26分,僅剛好達到正常範圍的門檻),而Gemini系列則得分最低(30分中僅得16分,表現糟糕)。
研究人員發現,所有聊天機器人在命名、注意力、語言和抽象等多種類型的任務上都表現良好。然而,這些AI在視空間和執行任務方面卻表現不佳,例如連接圈中數字的升序,或是畫出指定時間的時鐘。令人尷尬的是,兩個Gemini模型在一項相對簡單的延遲回憶任務中完全失敗,這涉及記住一個五個單詞的序列。這顯然無法顯示出良好的認知能力,而這對於醫生來說尤其成問題,因為他們必須處理病人告訴他們的各種新信息,而不僅僅依賴醫療記錄上的資料。
根據測試結果,研究人員發現所有聊天機器人都顯示出驚人的缺乏同理心,這是前額葉癡呆的一個典型症狀。
記憶病房
將AI模型擬人化,將其視為幾乎是人類的做法,可能是一種壞習慣。畢竟,這正是AI行業希望你這樣做的。研究人員對此風險表示認識,並承認大腦與大型語言模型之間的根本區別。然而,如果科技公司在談論這些AI模型時將其視為已經具備意識的存在,那麼為何不按照人類的標準來評估它們呢?
根據AI行業自己的標準,這些聊天機器人表現得相當不佳。研究人員寫道:「不僅神經科醫生不太可能在短期內被大型語言模型取代,我們的研究結果還表明,他們可能很快會發現自己正在治療新的虛擬病人——出現認知障礙的人工智能模型。」
此研究引發了人們對AI在醫療領域應用的深思,尤其是對於AI是否真的能取代人類醫生的能力和倫理問題的討論。隨著AI技術的快速發展,我們必須更加謹慎地評估這些工具的可靠性和適用性,特別是在影響人類健康的領域。這不僅是科技發展的挑戰,更是我們如何理解和應用這些技術的考驗。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。