AI放射學臨床應用挑戰:腦出血檢測與解讀時間分析

Ai

在放射學臨床實踐中實施人工智能(AI)支持計劃的挑戰

在美國,腦中風是第四大死亡原因,也是主要的殘疾原因。非對比頭部CT仍然是最廣泛使用和容易獲得的成像方法,用於區分出血性中風和缺血性中風,並排除一些中風模擬病,如腦腫瘤和感染。這些區分對於選擇合適的治療方案和指導可能的進一步成像評估(如MRI或血管造影)至關重要。

在《放射學:人工智能》這一期中,Del Gaizo等描述了他們在使用人工智能臨床決策支持程序(CINA v1.0, Avicenna.ai)檢測顱內出血(ICH)方面的經驗,該程序分析了61,704個非對比頭部CT掃描。AI程序對3,383個掃描返回了錯誤輸出,剩下58,321個進行評估。所有掃描均由有經驗的放射科醫生解讀,他們可以訪問AI程序的結果。研究測量了AI程序在檢測ICH方面的準確性及其對系統效率的影響,即放射科醫生的任務時間或解讀時間。

在當前的研究中,AI支持的CINA v1.0程序達到了75.6%的靈敏度、92.1%的特異性和91.7%的整體準確性。然而,McLouth等的研究結果顯示CINA v1.0 AI解決方案的靈敏度為91.4%,特異性為97.5%,整體準確性為95.6%。CINA v1.0程序對於小於3.0 mL的出血性病變有不建議使用的聲明,而當前研究則包括了這一範圍的病變。Del Gaizo等指出,這類病例可能影響靈敏度數據和假陰性率。當前研究中未記錄病變的大小,因此無法確定影響的程度。

Del Gaizo等報告的一個顯著發現是其陽性預測值(PPV)僅為21.1%。PPV是靈敏度、特異性和流行率的函數,表示患者在檢測結果為陽性(異常)時實際患病的概率。作者觀察到,研究中2.7%的低流行率可能是PPV低的原因。值得注意的是,McLouth等報告的ICH流行率為31%,顯示出與當前研究不同的患者群體。McLouth等研究中的PPV為91.4%。他們模型化了不同的流行率,保持靈敏度和特異性不變,顯示在10%流行率時PPV為80.2%,在50%流行率時為97.3%。

Del Gaizo等的研究結果與McLouth等的驗證結果之間的差異,尤其是在PPV上的顯著差異,突顯了AI模型實現可泛化性挑戰的困難。Yu等對86個AI算法的外部驗證研究進行了系統文獻回顧,發現絕大多數(70個中的86個,佔81%)報告的外部性能均低於內部性能。Eche等指出,過度擬合、擬合不足和欠規範化均可能導致可泛化性差。

有趣的是,AI研究領域尚未充分利用強調識別具有相似疾病表現和人口特徵的患者亞群的精準醫學原則。相反,AI程序的開發和訓練強調在異質數據源中實現廣泛可泛化性。AI影像應用的研究人員應考慮探索基於精準醫學的方法。類似的模型構造可以使用,但應在符合精準醫學分層概念的數據集上進行訓練。

在Del Gaizo等報告的研究中,AI模型可以在按年齡、性別及其他臨床記錄參數(如體型、血壓和抗凝治療)進行分層的多個影像數據集上進行開發和測試。然後將生成的AI解決方案應用於相應分層的保留隊列和其他測試集,以驗證其性能。這將是未來研究的一個有趣的努力。

AI在影像學中的一個希望是支持放射科醫生更高效的工作流程。然而,在Del Gaizo等的數據中,當解讀時間考慮到實踐中的世俗趨勢時,情況並非如此。AI的假陽性和假陰性病例導致放射科醫生的解讀時間顯著增加,與未顯示AI臨床決策支持結果的病例相比。在研究期間,放射科醫生在假陰性病例上平均需要比沒有AI支持結果的病例多花1分2秒的時間。類似地,AI的假陰性病例的解讀時間比AI的真陽性病例多花49秒。作者推測,假陽性和假陰性病例的解讀時間增加可能是因為放射科醫生在自我懷疑,並可能尋求同事的諮詢或查看病歷尋找額外線索。解讀時間的增加對整體系統效率產生負面影響,並可能延誤某些診斷。

在使用AI程序時,對任務時間的評估應謹慎進行,以避免在放射科醫生尚未完全訓練或吸收新技術之前產生學習曲線偏見。在Del Gaizo等的研究中,AI解決方案引入後延遲了6個月才記錄解讀時間數據。

對於缺血性和出血性中風而言,治療時間至關重要。先前的研究發現,通過重新優先考慮閱讀隊列,將高風險和高概率的病例提前解讀,能夠帶來好處。O’Neill等通過在工作列表上使用標記和標記系統來重新優先考慮解讀順序,顯著減少了報告ICH陽性病例的周轉時間。雖然Del Gaizo等的研究未評估整體周轉時間,但所有納入的研究均立即進行了排序。考慮到中風中腦組織的快速損失,如何利用AI優先處理工作隊列的問題值得持續研究。

Del Gaizo等的研究提出了影像學中AI應用的另一個挑戰,即參考標準的問題。在他們的研究中,個別放射科醫生的結論被視為正確研究解讀的參考標準。作者認為,這種方法在他們的研究中是有效的,因為研究人群龐大。而在McLouth等的驗證研究中,兩位神經放射科醫生之間的共識被用作真實標準。最初有21個病例存在分歧,經過解決。然而,與許多AI應用研究一樣,這留下了參考標準的準確性問題。共識是如何達成的?某些病例是否真的不含糊?關於使用哪些參考標準以及如何評估其相對有效性或質量的問題,仍然是AI影像應用的一個薄弱環節。

Del Gaizo等報告的經驗對任何計劃在臨床放射學實踐中引入AI解決方案或進行類似研究的人都有重要的啟示和教訓。潛在的用戶應評估其患者群體是否與AI程序開發時的群體足夠接近:他們應評估流行率對準確性和預測值的潛在影響。對於給定的靈敏度和特異性組合,較低的流行率將導致PPV的低估。其他重要的問題還包括對放射科醫生解讀時間的影響,以及對於許多臨床情境的治療時間影響。保守地說,將AI應用引入臨床操作的放射科實踐,應始終在實施後進行評估,以確定程序在其獨特環境中的運行效果。

這篇文章不僅探討了AI在放射學中的挑戰,還指出了在實施AI技術時需考慮的多個重要因素,包括數據的異質性、流行率的影響以及對放射科醫生工作流程的潛在影響。這些問題不僅對研究者和臨床醫生有啟發意義,也為未來AI技術的發展和應用提供了寶貴的參考。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon