提升乳腺癌診斷:使用CBIS-DDSM和先進機器學習技術的透明可重複工作流程
可獲得的乳腺攝影數據集和先進的機器學習方法是提升電腦輔助乳腺癌診斷的關鍵。然而,私人數據集的獲取受限、公共數據庫的選擇性圖像取樣以及部分代碼的可用性不足,均影響了這些模型的可重複性和驗證。這些限制為希望在該領域取得進展的研究人員設置了障礙。根據2022年的數據,乳腺癌造成了全球670,000人的死亡。儘管如斷層合成技術等技術改善了篩查,但假陽性率和放射科醫生解讀的變異性卻加劇了患者的焦慮和醫療成本。此外,由於數據集的有限性和在實際應用中的性能下降,電腦輔助診斷算法面臨可靠性挑戰。
來自生物醫學深度學習有限責任公司的研究團隊和聖路易斯華盛頓大學的研究人員開發了一個試點代碼庫,旨在簡化乳腺癌診斷的整個過程,從圖像預處理到模型開發和評估。團隊發現,使用CBIS-DDSM質量子集時,較大的輸入尺寸可提高各類模型的惡性腫瘤檢測準確性,該質量子集提供完整圖像和感興趣區域(ROI)。這個代碼庫旨在推進全球乳腺癌診斷軟件的開發工作,提供一個可重複的框架,並融入最新的創新。
CBIS-DDSM數據集包含由訓練專家策劃的公開可獲得的乳腺攝影圖像,並進行了分割和病理標註的更新。這些圖像已從DICOM格式轉換為PNG格式,並經過處理以保持異常區域的集中焦點,包括應用圖像變換進行增強。模型訓練流程包括數據加載、標準化和量身定做的卷積神經網絡架構,然後使用準確性、精確度、召回率、F1分數和AUROC指標進行驗證。通過早停和檢查點跟踪性能,確保優化結果,促進未來的研究和診斷準確性的改進。
該研究探討了CBIS-DDSM質量子集數據集,以通過圖像處理和深度學習改善乳腺癌診斷。該子集包含1,696個異常ROI和1,592個相應的完整乳腺攝影圖像(DICOM格式),並已轉換為PNG格式進行分析。每張圖像均經過處理,重點關注異常區域,標準化為598×598像素,並通過數據增強技術進行增強。增強後的圖像被分為訓練(80%)、驗證(10%)和測試(10%),模型採用轉移學習構建,並在多個圖像尺寸上進行評估——224×224、299×299、448×448和598×598像素。研究強調,使用較大的圖像尺寸可改善惡性病例的檢測,突顯了在醫學影像中保持圖像細節的重要性。
模型性能根據架構和輸入尺寸的不同而有所變化,其中ResNet-50模型的表現優於Xception模型,特別是在448×448像素的情況下,前者達到了更高的ROC AUC分數和惡性檢測率。較大的圖像能夠提供更詳細的表示,有助於捕捉特定的癌症特徵,而較小的圖像則會導致一些細節的損失,影響檢測率。研究結論指出,ResNet-50的架構通過殘差學習捕捉複雜模式,相較於Xception的深度卷積方法,在乳腺攝影任務中表現出色,使其成為檢測乳腺攝影圖像中細微惡性腫瘤的更強選擇。
結論
乳腺癌篩檢模型通過多樣化的創新不斷演變,從模擬癌症進展到應用AI技術如CAD和聯邦學習。然而,不一致的方法論和不透明的數據集為重現性帶來了挑戰。為了解決這一問題,該研究提供了一個完全可訪問的代碼庫——從圖像預處理到評估,使用CBIS-DDSM數據集。這個代碼庫提供了一個透明的工作流程,以支持乳腺癌診斷中的模型開發和驗證。通過提高輸入尺寸和應用嚴格的質量控制,研究人員旨在提高模型的準確性和可靠性,促進透明度並加速該領域的進步。
這項研究突顯了在乳腺癌診斷中引入先進技術的必要性,並表明提升診斷準確性不僅依賴於技術本身,還需要研究者之間的合作與透明的信息共享。這不僅能提高醫療服務的質量,還能增加患者的信任,從而促進整個醫療體系的發展。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。