醫療保健中的人工智能:節省成本的背後卻需要大量人力
在美國賓夕法尼亞大學醫療系統中,醫生們利用一種人工智能算法來幫助癌症患者進行困難的治療和臨終選擇討論。這種算法能夠預測死亡機率,從而促使醫生進行必要的溝通。然而,這並不是一個可以隨便放置而不需維護的工具。根據2022年的一項研究,這一算法在新冠疫情期間的預測準確率下降了7個百分點。
這樣的下降可能對患者產生了實質影響。研究的首席作者、埃默里大學的腫瘤學家拉維·帕里克指出,這個工具未能促使醫生與需要的患者進行重要的討論,可能導致不必要的化療。帕里克認為,並非只有賓大醫療的算法在疫情中表現不佳,許多旨在提升醫療質量的算法都遭遇了類似問題。他強調,很多機構並沒有定期監控其產品的表現。
算法故障是醫療界長期以來所面臨的困境之一,這個問題如今開始引起醫院高層和研究人員的重視。事實上,人工智能系統需要持續的監控和人力資源來保證其正常運作。斯坦福醫療保健的首席數據科學家尼甘·沙赫表示:“每個人都認為人工智能會改善我們的醫療服務和擴大接入,但如果這樣做讓醫療成本增加20%,那麼這是否可行呢?”
政府官員擔心醫院缺乏資源來有效地運用這些技術。美國食品藥品監督管理局局長羅伯特·卡利夫在最近的AI專題研討會上表示:“我遍尋不著美國有哪個醫療系統能夠驗證臨床護理系統中運行的AI算法。”
目前,人工智能已在醫療行業廣泛應用,算法被用來預測患者的死亡風險、建議診斷、分診患者、記錄和總結就診情況,以減少醫生的工作量,以及批准保險索賠。根據Bessemer Venture Partners的報告,已有約20家專注於健康的AI初創公司預計每年將實現1000萬美元的收入。
然而,評估這些產品是否有效卻非常具有挑戰性。尤其是如何評估它們的持續性能,或是是否出現了類似故障的問題,則更為困難。耶魯醫學院的一項研究評估了六個“早期警告系統”,這些系統能在患者可能迅速惡化時提醒臨床醫生。該研究的共同創始人、芝加哥大學的醫生達娜·埃德爾森表示,超級計算機運行數據幾天後,顯示這六個產品之間的表現差異巨大。
醫院和醫療提供者在選擇最適合其需求的算法時面臨困難,因為普通醫生並不擁有超級計算機,而市場上也沒有類似消費者報告的參考資料。美國醫學會前主席傑西·艾倫菲爾德表示:“我們沒有標準,當前沒有任何標準可以指導我們如何評估和監控算法模型的表現。”
目前,醫生辦公室中最常見的AI產品是環境文檔技術,這是一種能夠聆聽和總結患者就診情況的技術輔助工具。今年以來,Rock Health的投資者已經追蹤到3.53億美元流入這些文檔公司。但艾倫菲爾德指出:“目前沒有標準來比較這些工具的輸出。”
而這是一個問題,因為即使是小錯誤也可能帶來災難性後果。斯坦福大學的一組團隊試圖使用大型語言模型來總結患者的病歷,並將結果與醫生的書寫進行比較。沙赫指出:“即使在最佳情況下,模型的錯誤率也達到了35%。”在醫學中,“當你在總結時忘記了一個字,比如‘發燒’——這就是一個問題,對吧?”
有時,算法失效的原因是邏輯上可以理解的。例如,基礎數據的變化可能會削弱其有效性,就像醫院更換實驗室供應商時一樣。然而,有時候錯誤的原因卻不明顯。
麻省總醫院的個性化醫療計劃技術主管桑迪·阿倫森表示,當他的團隊測試一款旨在幫助遺傳諮詢師找到與DNA變異相關文獻的應用時,該產品出現了“非確定性”——即在短時間內多次詢問同一問題時,給出的結果卻不同。阿倫森對大型語言模型能夠為過於繁忙的遺傳諮詢師提供知識總結的潛力感到興奮,但他也認為“這項技術需要改進”。
如果指標和標準稀缺,且錯誤可能出現於奇怪的原因,那麼機構該怎麼辦?答案是投入大量資源。沙赫表示,在斯坦福,僅對兩個模型進行公平性和可靠性的審核就花費了8到10個月和115個工時。
受訪專家提出了讓人工智能監控人工智能的想法,通過一些(人類)數據專家同時監控兩者。所有人都承認,這將需要機構投入更多資金,而這對於醫院的預算和AI技術專家供應有限的現實來說是一個艱難的要求。沙赫表示:“有一個願景,想要讓我們融化冰山以監控模型,這是很好的,但這真的是我想要的嗎?我們還需要多少人呢?”
這篇文章揭示了當前醫療保健中人工智能的雙面性:一方面,它有潛力改善醫療質量和提高效率;另一方面,缺乏有效的監控和標準可能使得這些技術的實施變得困難重重。醫療機構需要在創新和資源之間找到平衡,以確保這些智能工具能夠真正為患者帶來益處,否則,這場技術革命可能會淪為一場空談。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。