MIT發現AI影像語言模型唔識「否定詞」！

zero comment

研究發現視覺語言模型無法處理帶有否定詞的查詢

麻省理工學院（MIT）最新研究指出，像「不」和「沒有」這類否定詞，會令目前廣泛應用於醫療診斷等高風險場景的視覺語言模型（Vision-Language Models, VLMs）出現意料之外的錯誤。

想像一位放射科醫生在檢查胸部X光片時，發現病人組織有腫脹，但心臟並未擴大。醫生為了加快診斷，可能會用視覺語言模型搜尋其他類似病人的報告。但如果模型無法正確理解「沒有心臟擴大」這類否定詞，錯誤地將有心臟擴大和沒有心臟擴大的報告混淆，診斷結果就會大相逕庭。因為有心臟擴大的腫脹多半與心臟病有關，而沒有心臟擴大則可能有多種其他成因。

MIT的研究團隊發現，這類視覺語言模型在現實中極易犯下這種錯誤，主要是因為它們根本不理解否定詞的意義。主導研究的MIT研究生Kumail Alhamoud指出：「否定詞有非常重要的影響，如果我們盲目使用這些模型，後果可能非常嚴重。」

研究人員先測試模型對圖片說明中否定詞的識別能力，結果模型表現與隨機猜測無異。為了改善，他們製作了一個包含否定詞描述缺失物品的圖片說明數據集。透過這個數據集重新訓練模型後，模型在檢索不包含特定物品的圖片時表現有所提升，並且在多項選擇題的否定說明判斷上準確度也提高。

不過，研究團隊提醒，這只是初步改進，問題的根源仍需深入探討。他們希望此研究能提醒使用者注意這項被忽略的弱點，特別是在醫療等重要場景中，這缺陷可能導致錯誤決策，影響病人治療或工廠產品檢測。

MIT電機工程與計算機科學系副教授、此研究的資深作者Marzyeh Ghassemi強調：「這是技術層面的問題，但背後有更大的議題。如果連最基本的否定理解都出錯，我們就不應該在未經嚴格評估下廣泛使用這些大型視覺語言模型。」

視覺語言模型通常是基於大量圖片及其說明文字訓練而成，模型學習將圖片與相對應的文字轉換成向量表示，並嘗試匹配相似的向量。然而，現有的圖片說明幾乎都只描述圖片中「有什麼」，很少提及「沒有什麼」，因此模型根本沒有機會學習否定的概念。

研究團隊設計了兩個基準測試來評估模型的否定理解能力。第一個測試利用大型語言模型重新生成帶有否定詞的圖片說明，然後測試視覺語言模型根據含否定詞的提示檢索圖片的能力。第二個則是多選題，要求模型從多個相似說明中選出最貼切的，這些說明中有些包含否定詞，有些不包含。

結果顯示，模型在含否定詞的檢索任務中表現大跌約25%，多選題的最高準確率僅約39%，甚至有些模型表現不及隨機猜測。研究人員將這現象稱為「肯定偏誤」（affirmation bias），即模型傾向忽略否定詞，專注於圖片中出現的物體，無論用什麼方式表達否定，模型都會忽略。

為了改善這一點，團隊利用含有一千萬對圖片與文字說明的數據集，請大型語言模型生成帶有否定詞的合成說明，並小心確保這些說明自然流暢。利用這個數據集對視覺語言模型進行微調後，模型在圖片檢索任務中表現提升約10%，多選題準確率提升約30%。

Alhamoud表示：「我們的解決方案並不完美，僅是利用數據增強方法重新標註說明文字，尚未改變模型架構。但這證明這個問題是可解決的，希望其他研究者能在此基礎上繼續改進。」

未來，研究團隊計劃探索讓視覺語言模型分別處理圖片與文字的方式，以增強否定詞的理解能力，同時開發針對特定應用（如醫療）的專用數據集。

—

評論與啟示

這項研究揭示了目前視覺語言模型在基礎語言理解，尤其是否定詞處理上的嚴重缺陷，令人深思。現時AI技術在醫療影像診斷、產品質量檢測等關鍵領域的應用日益普及，模型若無法準確理解「沒有」、「不」等否定詞，極易導致誤判，甚至危害生命安全或造成重大經濟損失。

這種「肯定偏誤」的現象暴露出訓練數據集的偏差問題——只有「正面」描述的圖片說明，令模型從未學會處理否定。這一點提醒我們，AI系統的可靠性並非單靠模型複雜度或規模便可解決，數據質量和多樣性同樣關鍵。

此外，這也反映出當前AI在理解「語言語義」方面仍有巨大挑戰。否定詞的理解不只是辨識字面意思，更涉及語境、邏輯推理和常識。未來的AI研發應更注重語言與視覺的深度融合，甚至引入符號推理等方法，才能真正提升模型的「理解力」。

對香港及全球的AI應用推廣者來說，這是個警號：在部署視覺語言模型於臨床、工業等敏感領域前，必須進行嚴格的功能測試與風險評估，避免盲目追求技術潮流而忽略安全隱患。更重要的是，相關政策制定者與監管機構應該要求提供透明的性能數據，強制測試模型在否定詞等關鍵語言現象上的表現。

總結來說，MIT的這項研究不僅提出了技術挑戰，更促使整個AI社群重新審視基礎語言理解在視覺語言模型中的地位和重要性。未來AI的發展，不能只看「能做什麼」，更要看「能正確理解什麼」，這將是邁向真正智能的關鍵一步。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

MIT發現AI影像語言模型唔識「否定詞」！

chatgpt

🔥 CHATGPT PLUS 帳戶出租

MIT發現AI影像語言模型唔識「否定詞」！

chatgpt

Related Articles

抗AI監控攻略：示威者必學自保技巧！

點解網站唔顯示廣告？教你輕鬆解除封鎖！

37位必識數碼藝術家靈感大集合！

🔥 CHATGPT PLUS 帳戶出租