AI技術在醫療保健中的未來是否只是炒作?
作者:Anil Oza
2024年10月10日
在從Chat-GPT到獲得諾貝爾獎的利用人工智能預測蛋白質結構的化學研究的興奮之中,普林斯頓大學計算機科學教授Aravind Narayan和他的博士生Sayash Kapoor以對人工智能改變人們生活的某些聲明潑冷水而聞名。
Narayan於2019年在麻省理工學院的一次演講中因如何識別有關人工智能能力的誇大聲明而走紅。如今,他與他的博士生Kapoor合作出版了《AI Snake Oil》一書,該書於9月24日出版。儘管這本書鼓勵對許多人工智能聲明保持懷疑態度,但兩人對於這項技術的未來,包括在醫療保健方面,仍持謹慎樂觀的態度。
「很容易看到所有聊天機器人的缺陷和誤用,並得出這個世界因為如此失敗的技術而瘋狂的結論」,他們在書中寫道。「但這個結論過於簡單。」
STAT與Kapoor討論了人工智能未能達到預期的時候及其在醫療保健領域的未來潛力。這次對話經過了輕微的編輯以便於簡潔和清晰。
你如何看待人工智能在醫療保健領域的應用?與書中提到的其他領域相比,你對這裡的聲明更持懷疑態度嗎?
我認為本書的主要結論之一和總體主題是,人工智能是一個描述完全不相關技術的總稱。在過去的十年中,某些類型的人工智能取得了極快的進步,最顯著的是生成式人工智能應用——面向公眾的應用如文本機器人和ChatGPT,以及文本到圖像模型如Stable Diffusion、Midjourney和DALL-E。但在醫學領域,我們也看到了像AlphaFold這樣的應用,現在被用來預測蛋白質結構。我認為這些應用在醫療保健領域可能會產生同等甚至更大的影響。
當涉及到基於文本的生成式人工智能模型時,我們看到一些公司正在為醫療保健領域構建技術——例如Abridge,它可以轉錄病人筆記。在醫療保健中,我確實認為人工智能的積極影響很大一部分將來自生成式人工智能。
另一方面,我們在書中也談到了預測性人工智能,這是指用於根據對未來的預測來對個人做出決策的人工智能。在許多情況下,大量的「蛇油」集中在預測性人工智能領域。
例如,Optum的Impact Pro算法被用於全美的醫院中,來預測哪些病人在未來幾天最有可能需要最多的醫療保健。這個算法被用來優先考慮人員,並基於此選擇誰應該獲得更多的醫療保健,誰應該被列入優先名單。
然而,2019年,Ziad Obermeyer和其他人對Optum進行了一項算法偏見研究,發現該算法實際上存在大量種族差異。它更有可能推薦白人病人獲得更好的醫療保健並被認定為高風險,而不是黑人病人。這是因為該算法實際上是在預測病人將花費最多的醫療費用,而不是誰最需要醫療保健或誰處於最大風險中。
這也告訴我們,當涉及到預測性人工智能時,有很多微妙的問題可能會以基本無聲的方式出錯。除非你能夠訪問大量人的數據,否則很難診斷這種類型的失敗。所以在預測性人工智能的章節中,我們詳細討論了這些失敗的多種原因。對於Optum來說,問題在於目標變量的選擇——即算法在預測什麼。
但在其他情況下,我們也指出,基於預測進行干預有系統性原因使之困難。一個例子是1990年代的一組研究人員,他們試圖構建一個算法來預測當病人因肺炎症狀來到醫院時,是否應該過夜住院,還是他們是低風險病人,應該立即釋放。如果病人有哮喘,算法會更經常地建議立即釋放他們。
這發生的原因是,在現狀下,當病人出現哮喘症狀時,醫療保健工作者顯然會認識到這個病人需要更多的護理和關注,因此會將他們送到ICU。因此,哮喘病人在出現肺炎症狀時實際上有較低的風險發展為嚴重併發症。但這正是因為他們被送到了ICU。
所以如果1990年代的醫生採用了這個算法,他們會在病人出現肺炎症狀時將哮喘病人送回家,不經過住院,這將是災難性的。
你如何為這些工具設置標準?
例如,FDA最近對一項規則的澄清基本上說明醫療人工智能設備也算作醫療設備,這是一個積極的消息。
然而,我確實認為我們目前缺乏很多開發預測性人工智能的標準。一個例子是,與常規醫療技術不同,當我們開發人工智能系統時,它們對部署的分佈非常敏感。因此,僅僅開發一次並在全國範圍內的醫院中使用一種通用工具是不夠的。我們真正需要的是特定領域的干預措施,因此需要一個針對特定醫院系統甚至特定醫院進行微調的工具。
這一點很重要,因為隨著時間和地理位置的變化,醫療模式、疾病模式,以及在特定醫院中使用的設備類型等細微變化也會發生變化。與傳統醫療設備不同,機器學習算法對這些小變化非常敏感。
這一點在現實世界的例子中也得到了驗證。例如,Epic的敗血症預測算法,這是STAT的Casey Ross等人在幾年前非常詳細地報導過的。這是一個Epic公司出售的通用成功預測工具,於2016年部署。直到2021年,密歇根大學的一組專家檢查了算法的結果,發現該算法並不像公司聲稱的那樣有效。然後Epic花了一年的時間來改變其算法的部署方式,確保每家醫院都必須修改或調整它,或者在自己的數據上訓練模型。
展望未來,這類見解可以幫助改進在醫療環境中使用的預測性人工智能的實踐。當然,另一個問題是,一旦我們開始將醫療人工智能系統視為醫療設備或醫療干預措施,我們也需要像評估其他醫療干預措施一樣評估它們。因此,為了評估這些工具的效果,我們需要進行前瞻性研究,並補充部署後的醫療人工智能評估研究。這兩者都是必要的,以達到人工智能在臨床相關設置中真正有用的地步。
你認為未來五到十年內人工智能在醫療保健領域會如何發展?
我認為生成式人工智能將繼續廣泛採用。我們正處於一個人們正在探索人工智能可能用途的時期,我確實認為許多這些用途可能還沒有成熟到可以在現實世界中部署的地步。我主要擔心的是,我們會急於在醫療領域廣泛採用生成式人工智能,而沒有適當的評估機制。
儘管如此,我對稍長期的前景持廣泛樂觀態度。我們已經看到生成式人工智能被採用來提高效率的早期跡象。一方面,例如總結醫生的筆記或幫助轉錄它們,另一方面,通過半自動化藥物發現來推動可能性的前沿。
我認為這兩個領域將繼續看到更多的採用,我認為只要我們找到評估這些模型的方法,不讓自己誤以為這些模型比實際效果更好,這將帶來許多積極的影響。有人最近告訴我,語言模型和生成式人工智能在第一眼看來總是比長期效果更好,它們在演示中總是比在現實世界中更令人印象深刻。
編者評論:
這篇文章提供了一個深入的探討,揭示了人工智能在醫療保健中的潛力和挑戰。Narayan和Kapoor的觀點強調了對人工智能的謹慎樂觀態度,這種態度在現今科技界過於樂觀的氛圍中顯得尤為重要。他們對預測性人工智能的批判性分析,尤其是其可能帶來的種族偏見和其他潛在問題,為我們提供了一個清醒的視角。
從香港的角度看,這些討論對本地醫療系統同樣具有重要意義。香港的醫療機構在引入新技術時,應該特別注意這些技術的適用性和潛在風險。Narayan和Kapoor的研究提醒我們,技術應該服務於所有人,而不是加劇現有的不平等。
此外,文章中的案例,如Epic的敗血症預測算法,強調了在不同地理和文化背景下,技術應用可能面臨的挑戰。這對於一個多元化的社會來說尤其重要,因為我們需要確保技術能夠適應不同的醫療需求和情況。
總結來說,這篇文章不僅是一個技術報告,更是一個對未來醫療保健技術應用的警示。它提醒我們在追求創新時,不應忽視技術的倫理和社會影響。這對於香港的醫療界來說,是一個寶貴的教訓和啟示。
以上文章由特價GPT API KEY所翻譯