AI模型何時可信？MIT新技術揭祕

zero comment

🎨 Nano Banana Pro 圖像生成器｜打幾句說話就出圖

想畫人像、產品圖、插畫？SSFuture 圖像生成器支援
Flux 同 Gemini Nano Banana Pro 改圖 / 合成，
打廣東話都得，仲可以沿用上一張圖繼續微調。

A whimsical, artistic scene set in a classic Hong Kong cha chaan teng (茶餐廳): A charming cat sits comfortably at a small table, elegantly sipping a traditional Hong Kong-style milk tea from a delicate glass. The cat's fur is soft and expressive, and its posture is relaxed yet attentive, suggesting it is a regular at the tea shop. The restaurant interior is bustling yet cozy, adorned with retro posters, old ceiling fans, patterned floor tiles, and Formica tables reflecting the local culture. Sunlight streams through the window, casting warm highlights on the cat and creating a vivid play of shadows. Details include steaming milk tea cups, egg tarts and pineapple buns on the table, and waiters in classic uniforms moving in the background. The overall color palette is rich and atmospheric, blending nostalgia with the lively charm of Hong Kong.

何時信任AI模型

更準確的不確定性估計能幫助用戶決定如何及何時在現實世界中使用機器學習模型。

因為機器學習模型可能會給出錯誤的預測，研究人員通常會讓它們具備告訴用戶對某個決策有多大信心的能力。這在高風險環境中特別重要，例如當模型被用來幫助識別醫學影像中的疾病或篩選求職申請時。

但模型的不確定性量化只有在其準確時才有用。如果一個模型說它對某張醫學影像顯示胸腔積液有49%的信心，那麼它應該在49%的時間內是正確的。

麻省理工學院的研究人員引入了一種新方法，可以改善機器學習模型的不確定性估計。他們的方法不僅能生成比其他技術更準確的不確定性估計，還能更高效地完成這一任務。

此外，由於這種技術具有可擴展性，它可以應用於越來越多地被部署在醫療保健和其他安全關鍵情況中的大型深度學習模型。

這種技術可以為終端用戶提供更好的信息，這些用戶中的許多人缺乏機器學習專業知識，可以用來決定是否信任模型的預測或是否應該部署該模型來執行某項任務。

「在模型在某些場景中表現得非常好時，很容易認為它們在其他場景中也同樣出色。這使得推進這類工作變得尤為重要，這類工作旨在更好地校準這些模型的不確定性，以確保它們符合人類對不確定性的認知。」領銜作者Nathan Ng說，他是多倫多大學的研究生，也是在麻省理工學院訪問的學生。

Ng與多倫多大學計算機科學助理教授Roger Grosse，以及資深作者Marzyeh Ghassemi共同撰寫了這篇論文。Ghassemi是電子工程和計算機科學系的副教授，也是醫學工程科學研究所和信息與決策系統實驗室的成員。該研究將在國際機器學習會議上展示。

量化不確定性

不確定性量化方法通常需要複雜的統計計算，這些計算無法很好地擴展到擁有數百萬參數的機器學習模型中。這些方法還需要用戶對用於訓練模型的模型和數據做出假設。

麻省理工學院的研究人員採取了不同的方法。他們使用了一種稱為最小描述長度原理（MDL）的方法，這種方法不需要其他方法可能會妨礙準確性的假設。MDL被用來更好地量化和校準模型被要求標記的測試點的不確定性。

研究人員開發的技術稱為IF-COMP，使MDL能夠快速應用於許多現實世界中部署的大型深度學習模型。

MDL涉及考慮模型可能為某個測試點給出的所有標籤。如果有許多符合該點的替代標籤，那麼它對所選標籤的信心應相應降低。

「理解一個模型有多大信心的一種方法是告訴它一些反事實信息，看看它有多大可能相信你。」Ng說。

例如，考慮一個說某張醫學影像顯示胸腔積液的模型。如果研究人員告訴模型這張影像顯示的是水腫，並且它願意更新其信念，那麼模型應該對其原始決策的信心較低。

使用MDL，如果模型在標記數據點時很有信心，它應該使用非常短的代碼來描述該點。如果它對其決策感到不確定，因為該點可能有很多其他標籤，它會使用較長的代碼來捕捉這些可能性。

用來標記數據點的代碼量被稱為隨機數據複雜性。如果研究人員問模型在給出相反證據的情況下多願意更新其對數據點的信念，如果模型有信心，隨機數據複雜性應該會減少。

但使用MDL測試每個數據點將需要大量計算。

加快過程

使用IF-COMP，研究人員開發了一種近似技術，可以使用一種特殊函數（稱為影響函數）準確估計隨機數據複雜性。他們還採用了一種稱為溫度校準的統計技術，這種技術可以改善模型輸出的校準。影響函數和溫度校準的結合使得隨機數據複雜性的高質量近似成為可能。

最終，IF-COMP可以高效地生成反映模型真實信心的良好校準的不確定性量化。該技術還可以確定模型是否錯誤標記了某些數據點，或揭示哪些數據點是異常值。

研究人員在這三個任務中測試了他們的系統，發現它比其他方法更快、更準確。

「確保模型校準良好非常重要，並且需要能夠檢測到特定預測看起來不太對勁的情況。隨著我們使用大量未經檢查的數據來製作將應用於面向人類問題的模型，審計工具變得越來越必要。」Ghassemi說。

IF-COMP是模型不可知論的，因此它可以為多種類型的機器學習模型提供準確的不確定性量化。這可以使其在更廣泛的現實世界中部署，最終幫助更多從業者做出更好的決策。

「人們需要明白這些系統非常容易出錯，並且可能會根據相反的證據做出很多不同的判斷。模型可能看起來非常有信心，但它在給出相反證據的情況下有許多不同的東西願意相信。」Ng說。

將來，研究人員有興趣將他們的方法應用於大型語言模型，並研究最小描述長度原理的其他潛在用例。

—

編輯評論：

這篇文章探討了機器學習模型中的不確定性量化問題，並介紹了MIT研究人員開發的新技術IF-COMP。這項技術不僅能提供更準確的不確定性估計，還能高效地應用於大型深度學習模型中，這對於醫療保健等高風險領域來說尤為重要。

文章強調了不確定性量化的重要性，特別是在高風險環境中，這種量化可以幫助用戶做出更加明智的決策。新技術的引入無疑是機器學習領域的一大進步，尤其是在處理龐大且複雜的數據時。

然而，文章也指出，這些模型在某些情況下仍然可能會出錯或受到反事實信息的影響。因此，盡管新技術能提高模型的準確性和效率，用戶在使用這些模型時仍需保持謹慎，並且不能過度依賴技術，需要有足夠的專業知識來輔助決策。

總的來說，這篇文章提供了一個深入且具體的技術改進案例，對於關注機器學習和人工智能應用的讀者來說，具有很高的參考價值。未來研究的方向，如將這種技術應用於大型語言模型，亦令人期待。

以上文章由特價GPT API KEY所翻譯

Download TXT

AI模型何時可信？MIT新技術揭祕

🎨 Nano Banana Pro 圖像生成器｜打幾句說話就出圖

chatgpt

發佈留言取消回覆

AI模型何時可信？MIT新技術揭祕

🎨 Nano Banana Pro 圖像生成器｜打幾句說話就出圖

chatgpt

發佈留言 取消回覆

Related Articles

克利夫蘭藝術館用AI活化意大利時尚展覽！

2026藝術新旅程｜ImagineFX只需£1訂閱體驗

2026年健康AI未來大預測！

發佈留言取消回覆