如何在部署前評估通用AI模型的可靠性
一種新技術使用戶能夠比較多個大型模型,並選擇最適合其任務的模型。
撰文:Adam Zewe | MIT新聞
概述:
為了估算被稱為基礎模型的巨大深度學習模型的可靠性,麻省理工學院的研究人員開發了一種技術來評估多個相似模型對同一測試數據點所學習的表示的一致性。
基礎模型是基於大量通用、未標記數據進行預訓練的巨大深度學習模型。它們可以應用於各種任務,例如生成圖像或回答客戶問題。
但是,這些模型作為強大人工智能工具(例如 ChatGPT 和 DALL-E)的基礎,可能會提供錯誤或誤導性的信息。在安全至關重要的情況下,例如行人接近自駕車時,這些錯誤可能會帶來嚴重後果。
為了幫助防止這類錯誤,麻省理工學院和麻省理工-IBM Watson AI實驗室的研究人員開發了一種技術,可以在基礎模型部署到特定任務之前估算其可靠性。
他們通過考慮一組略有不同的基礎模型來實現這一目標。然後,他們使用算法來評估每個模型對同一測試數據點學習的表示的一致性。如果這些表示一致,則意味著模型是可靠的。
當他們將這種技術與最先進的基準方法進行比較時,它在捕捉基礎模型在各種下游分類任務中的可靠性方面表現更好。
有人可以使用這種技術來決定是否應在某個環境中應用模型,而無需在真實世界數據集中進行測試。這在數據集由於隱私問題而可能無法訪問的情況下特別有用,例如在醫療環境中。此外,該技術還可以用於根據可靠性分數對模型進行排名,使用戶可以選擇最適合其任務的模型。
“所有模型都可能出錯,但知道何時出錯的模型更有用。對於這些基礎模型來說,量化不確定性或可靠性更具挑戰性,因為它們的抽象表示很難比較。我們的方法允許人們量化任何給定輸入數據的表示模型的可靠性,”資深作者Navid Azizan說,他是麻省理工學院機械工程系和數據、系統與社會研究所(IDSS)的Esther and Harold E. Edgerton助理教授,也是信息和決策系統實驗室(LIDS)的一員。
他與本文的主要作者、LIDS研究生Young-Jin Park;麻省理工-IBM Watson AI實驗室的研究科學家Hao Wang;以及Netflix的高級研究科學家Shervin Ardeshir共同撰寫了這篇文章。該論文將在人工智能不確定性會議上發表。
衡量共識
傳統的機器學習模型是針對特定任務進行訓練的。這些模型通常會根據輸入做出具體的預測。例如,該模型可能會告訴你某張圖像中是否包含貓或狗。在這種情況下,評估可靠性可能就是檢查最終預測是否正確。
但基礎模型不同。這些模型使用通用數據進行預訓練,在此過程中,其創建者不知道它將被應用於所有下游任務。用戶在模型已經訓練完畢後再將其適應於其特定任務。
與傳統機器學習模型不同,基礎模型不會給出“貓”或“狗”這樣的具體輸出。相反,它們基於輸入數據點生成抽象表示。
為了評估基礎模型的可靠性,研究人員通過訓練一組具有許多相似屬性但略有不同的模型來使用集成方法。
“我們的想法就像是衡量共識。如果所有這些基礎模型都為我們數據集中的任何數據給出一致的表示,那麼我們可以說這個模型是可靠的,”Park說。
但他們遇到了一個問題:如何比較抽象表示?
“這些模型只輸出一個向量,由一些數字組成,所以我們無法輕易比較它們,”他補充道。
他們使用了一個稱為鄰域一致性的概念來解決這個問題。
對於他們的方法,研究人員準備了一組可靠的參考點來在模型集上進行測試。然後,對於每個模型,他們調查位於該模型對測試點表示附近的參考點。
通過查看鄰近點的一致性,他們可以估算模型的可靠性。
對齊表示
基礎模型將數據點映射到所謂的表示空間。可以將這個空間想像成一個球體。每個模型將相似的數據點映射到其球體的同一部分,因此貓的圖像會被映射到一個地方,狗的圖像會被映射到另一個地方。
但每個模型會以不同的方式在其球體內映射動物,所以在一個模型的球體南極附近的貓,可能會在另一個模型的球體北半球的某個地方。
研究人員使用鄰近點作為錨點來對齊這些球體,以便使表示具有可比性。如果數據點的鄰居在多個表示中是一致的,那麼對於該點模型輸出的可靠性應該是有信心的。
當他們在各種分類任務上測試這種方法時,他們發現它比基準方法更一致。此外,它不會被使其他方法失敗的困難測試點所困擾。
此外,他們的方法可以用於評估任何輸入數據的可靠性,因此可以評估模型對特定類型個體(例如具有某些特徵的患者)的效果。
“即使所有模型的整體表現都處於平均水平,從個體角度來看,你會更喜歡那個對該個體效果最好的模型,”Wang說。
然而,一個限制來自於他們必須訓練一組基礎模型,這在計算上是昂貴的。未來,他們計劃找到更高效的方法來構建多個模型,也許通過對單一模型進行小的擾動。
“隨著當前趨勢使用基礎模型的嵌入來支持各種下游任務——從微調到檢索增強生成——在表示級別量化不確定性的問題變得越來越重要,但也越來越具挑戰性,因為嵌入本身沒有基礎。相反,重要的是不同輸入的嵌入之間的關係,這一想法在這項工作中通過提出的鄰域一致性分數得到了恰當的體現,”斯坦福大學航空航天系副教授Marco Pavone說,他沒有參與這項工作。“這是邁向高質量嵌入模型不確定性量化的一步,我很期待看到未來不需要模型集成的擴展,以真正使這一方法擴展到基礎規模模型。”
這項工作部分由麻省理工-IBM Watson AI實驗室、MathWorks和亞馬遜資助。
編輯評論:
這篇文章探討了一個關鍵且前沿的問題,即如何在部署基礎AI模型之前評估其可靠性。基礎模型的應用範圍廣泛,但它們的可靠性問題卻不容忽視。麻省理工學院的研究人員提出了一種通過鄰域一致性來評估模型可靠性的創新方法,這確實是一個值得關注的突破。這種方法不僅在技術上具有創新性,而且在實際應用中也有著廣泛的潛力,特別是在數據隱私受限的領域,如醫療保健。
然而,這種方法的一個主要限制是需要訓練一組基礎模型,這在計算上是昂貴的。未來的研究若能找到更高效的實現方法,將會大大提升這一技術的實用性。此外,這項技術能否適應不同類型的數據和任務,仍需進一步驗證。
總體來說,這篇文章展示了人工智能研究中的一個重要進展,對於那些關注AI模型可靠性和應用安全性的讀者來說,具有重要的啟發意義。
以上文章由特價GPT API KEY所翻譯