斯坦福研究人員推出BIOMEDICA:一個可擴展的AI框架以推進生物醫學視覺-語言模型
生物醫學領域的視覺-語言模型(VLM)發展面臨諸多挑戰,主要源於缺乏大規模、經過註釋且可公開獲取的多模態數據集。雖然已有許多數據集來自生物醫學文獻,例如PubMed,但這些數據集往往僅集中於放射學和病理學等特定領域,而忽略了分子生物學和藥物基因組學等對於全面臨床理解至關重要的互補領域。此外,隱私問題、專家級註釋的複雜性以及後勤限制進一步阻礙了綜合數據集的創建。以往的做法,如ROCO、MEDICAT和PMC-15M,依賴於特定領域的過濾和監督模型來提取數以百萬計的圖像-標題對,但這些策略往往無法捕捉推進通用生物醫學VLM所需的更廣泛的生物醫學知識多樣性。
除了數據集的限制外,生物醫學VLM的訓練和評估也面臨獨特挑戰。對比學習方法,如PMC-CLIP和BiomedCLIP,已顯示出潛力,通過利用基於文獻的數據集和視覺變壓器模型進行圖像-文本對齊。然而,相較於通用VLM,它們的性能受到較小數據集和有限計算資源的限制。此外,當前的評估協議主要集中於放射學和病理學任務,缺乏標準化和更廣泛的適用性。依賴額外的可學習參數和狹窄的數據集削弱了這些評估的可靠性,突顯出需要可擴展數據集和健全的評估框架來滿足生物醫學視覺-語言應用的多樣化需求。
斯坦福大學的研究人員推出了BIOMEDICA,這是一個開源框架,旨在提取、註釋和組織整個PubMed Central開放訪問子集,並將其轉化為用戶友好的數據集。這個檔案庫包含來自600萬篇文章的超過2400萬個圖像-文本對,並附有元數據和專家註釋。他們還發布了BMCA-CLIP,這是一套通過流式傳輸在BIOMEDICA上進行預訓練的CLIP風格模型,無需本地存儲27TB的數據。這些模型在放射學、皮膚科和分子生物學等40個任務中的表現達到最先進的水平,零樣本分類的平均提高了6.56%,並減少了計算需求。
BIOMEDICA數據整理過程包括數據集提取、概念標記和序列化。文章和媒體文件從NCBI伺服器下載,提取元數據、標題和圖形參考,使用nXML文件和Entrez API。圖像使用DINOv2嵌入進行聚類,並通過專家改進的分層分類法進行標記。標籤通過多數投票分配並在聚類之間傳播。該數據集包含超過2400萬個圖像-標題對和廣泛的元數據,並以WebDataset格式序列化以便於流式傳輸。擁有12個全球和170個本地圖像概念,分類法涵蓋臨床成像、顯微鏡學和數據可視化等類別,強調可擴展性和可訪問性。
在BIOMEDICA數據集上進行的持續預訓練評估利用了39個已建立的生物醫學分類任務和來自Flickr的新檢索數據集,涵蓋40個數據集。分類基準包括病理學、放射學、生物學、外科、皮膚科和眼科任務。使用了分類的平均準確率和檢索召回率(在1、10和100時)的指標。概念過濾(排除過度代表的主題)表現優於概念平衡或完整數據集預訓練。在BIOMEDICA上訓練的模型達到了最先進的結果,顯著超越以往的方法,在分類、檢索和顯微鏡學任務中使用更少的數據和計算獲得了改進的表現。
總結來說,BIOMEDICA是一個全面的框架,將PubMed Central開放訪問(PMC-OA)子集轉變為最大的深度學習準備數據集,擁有2400萬個圖像-標題對,並附有27個元數據字段。該框架旨在解決缺乏多樣化、經過註釋的生物醫學數據集的問題,提供一個可擴展的開源解決方案,從超過600萬篇文章中提取和註釋多模態數據。通過使用BIOMEDICA持續預訓練CLIP風格模型,該框架在40個生物醫學任務中達到了最先進的零樣本分類和圖像-文本檢索,所需的計算量減少了10倍,數據量減少了2.5倍。所有資源,包括模型、數據集和代碼,均可公開獲取。
這項研究的意義在於,BIOMEDICA不僅填補了生物醫學領域數據集的空白,還為未來的研究者提供了一個強大的工具,讓他們能夠更輕鬆地進行多模態數據分析。這不僅有助於推進學術研究,也可能對臨床實踐產生積極影響,促進更全面的患者護理和診斷。隨著生物醫學領域對數據需求的增長,這種開放和可擴展的資源將成為關鍵,並可能改變整個行業的運作方式。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。