
谷歌人工智能推出醫學智能探索者(AMIE):一個優化診斷推理的大型語言模型
開發準確的鑑別診斷(DDx)是醫療保健的一個基本部分,通常通過整合病人歷史、體檢和診斷測試的逐步過程來實現。隨著大型語言模型(LLMs)的興起,利用互動的人工智能工具支持和自動化這一診斷旅程的潛力正在增加。與專注於產生單一診斷的傳統人工智能系統不同,現實中的臨床推理涉及隨著更多病人數據的可用而不斷更新和評估多種診斷可能性。儘管深度學習在放射學、眼科和皮膚科等領域成功生成了DDx,但這些模型通常缺乏與臨床醫生有效互動所需的互動性和對話能力。
大型語言模型的出現為構建能通過自然語言互動支持DDx的工具提供了新途徑。這些模型,包括通用模型如GPT-4及醫療專用模型如Med-PaLM 2,在多項選擇和標準化醫學考試中表現出色。雖然這些基準最初評估模型的醫學知識,但並未反映其在實際臨床環境中的實用性或在複雜案例中協助醫生的能力。儘管一些近期研究已經測試了LLMs在挑戰性案例報告中的表現,但對這些模型如何增強臨床醫生決策或通過實時合作改善病人護理的理解仍然有限。
谷歌的研究人員推出了AMIE,一個針對臨床診斷推理量身定制的大型語言模型,以評估其在協助DDx方面的有效性。在一項涉及20名臨床醫生和302個複雜現實醫療案例的研究中,AMIE的單獨表現超過了未經幫助的臨床醫生。當與傳統工具集成時,使用AMIE的臨床醫生所產生的DDx清單比僅使用標準資源的醫生更準確、更全面。AMIE不僅提高了診斷的準確性,還增強了臨床醫生的推理能力。其表現也超越了GPT-4的自動評估,顯示出在實際臨床應用和更廣泛的專家級支持方面的潛力。
AMIE是一個針對醫療任務微調的語言模型,其在生成DDx方面表現強勁。其生成的清單在質量、適宜性和全面性上均獲得高評價。在54%的案例中,AMIE的DDx包括正確診斷,顯著超過了未經幫助的臨床醫生。它的前10名準確率達到59%,在29%的案例中,正確診斷排名第一。使用AMIE的臨床醫生在診斷準確性上也有所提高,與使用搜索工具或獨立工作相比,明顯改善。儘管對AMIE界面不熟悉,臨床醫生仍然以類似於傳統搜索方法的方式使用它,顯示出其實用性。
在對70個NEJM CPC案例進行的AMIE與GPT-4的比較分析中,由於評分者組的不同,直接的人類評估比較受到限制。相反,使用了一種與人類判斷相對應的自動化指標。儘管GPT-4在前1名準確性上略微超過AMIE(但不具統計意義),AMIE在前n準確性(n > 1)上顯示出優越性,特別是在n > 2的情況下有顯著增長。這表明AMIE生成了更全面和適當的DDx,這是現實臨床推理中的關鍵方面。此外,AMIE在獨立的DDx任務中超過了經過認證的醫生,並顯著提高了作為輔助工具的臨床醫生表現,產生的前n準確性、DDx質量和全面性均優於傳統的基於搜索的協助。
除了原始性能外,AMIE的對話界面直觀且高效,臨床醫生在使用後報告其DDx清單的信心有所提高。儘管存在一些限制,例如AMIE無法訪問臨床材料中的圖像和表格數據,以及CPC風格案例呈現的人工性,但其在教育支持和診斷協助方面的潛力是非常可觀的,尤其是在複雜或資源有限的環境中。儘管如此,該研究強調了在臨床工作流程中小心整合LLMs的必要性,需注意信任校準、模型的不確定性表達以及可能的錨定偏見和幻覺。未來的工作應嚴格評估AI輔助診斷的實際應用、公平性和長期影響。
這一研究展現了人工智能在醫療診斷中的潛力,但也提醒我們需謹慎應用。隨著醫療領域越來越依賴技術,如何平衡技術的創新與醫療專業的道德責任將成為未來的重要課題。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。