六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

MIT發現AI影像語言模型唔識「否定詞」!

Ai

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

研究發現視覺語言模型無法處理帶有否定詞的查詢

麻省理工學院(MIT)最新研究指出,像「不」和「沒有」這類否定詞,會令目前廣泛應用於醫療診斷等高風險場景的視覺語言模型(Vision-Language Models, VLMs)出現意料之外的錯誤。

想像一位放射科醫生在檢查胸部X光片時,發現病人組織有腫脹,但心臟並未擴大。醫生為了加快診斷,可能會用視覺語言模型搜尋其他類似病人的報告。但如果模型無法正確理解「沒有心臟擴大」這類否定詞,錯誤地將有心臟擴大和沒有心臟擴大的報告混淆,診斷結果就會大相逕庭。因為有心臟擴大的腫脹多半與心臟病有關,而沒有心臟擴大則可能有多種其他成因。

MIT的研究團隊發現,這類視覺語言模型在現實中極易犯下這種錯誤,主要是因為它們根本不理解否定詞的意義。主導研究的MIT研究生Kumail Alhamoud指出:「否定詞有非常重要的影響,如果我們盲目使用這些模型,後果可能非常嚴重。」

研究人員先測試模型對圖片說明中否定詞的識別能力,結果模型表現與隨機猜測無異。為了改善,他們製作了一個包含否定詞描述缺失物品的圖片說明數據集。透過這個數據集重新訓練模型後,模型在檢索不包含特定物品的圖片時表現有所提升,並且在多項選擇題的否定說明判斷上準確度也提高。

不過,研究團隊提醒,這只是初步改進,問題的根源仍需深入探討。他們希望此研究能提醒使用者注意這項被忽略的弱點,特別是在醫療等重要場景中,這缺陷可能導致錯誤決策,影響病人治療或工廠產品檢測。

MIT電機工程與計算機科學系副教授、此研究的資深作者Marzyeh Ghassemi強調:「這是技術層面的問題,但背後有更大的議題。如果連最基本的否定理解都出錯,我們就不應該在未經嚴格評估下廣泛使用這些大型視覺語言模型。」

視覺語言模型通常是基於大量圖片及其說明文字訓練而成,模型學習將圖片與相對應的文字轉換成向量表示,並嘗試匹配相似的向量。然而,現有的圖片說明幾乎都只描述圖片中「有什麼」,很少提及「沒有什麼」,因此模型根本沒有機會學習否定的概念。

研究團隊設計了兩個基準測試來評估模型的否定理解能力。第一個測試利用大型語言模型重新生成帶有否定詞的圖片說明,然後測試視覺語言模型根據含否定詞的提示檢索圖片的能力。第二個則是多選題,要求模型從多個相似說明中選出最貼切的,這些說明中有些包含否定詞,有些不包含。

結果顯示,模型在含否定詞的檢索任務中表現大跌約25%,多選題的最高準確率僅約39%,甚至有些模型表現不及隨機猜測。研究人員將這現象稱為「肯定偏誤」(affirmation bias),即模型傾向忽略否定詞,專注於圖片中出現的物體,無論用什麼方式表達否定,模型都會忽略。

為了改善這一點,團隊利用含有一千萬對圖片與文字說明的數據集,請大型語言模型生成帶有否定詞的合成說明,並小心確保這些說明自然流暢。利用這個數據集對視覺語言模型進行微調後,模型在圖片檢索任務中表現提升約10%,多選題準確率提升約30%。

Alhamoud表示:「我們的解決方案並不完美,僅是利用數據增強方法重新標註說明文字,尚未改變模型架構。但這證明這個問題是可解決的,希望其他研究者能在此基礎上繼續改進。」

未來,研究團隊計劃探索讓視覺語言模型分別處理圖片與文字的方式,以增強否定詞的理解能力,同時開發針對特定應用(如醫療)的專用數據集。

評論與啟示

這項研究揭示了目前視覺語言模型在基礎語言理解,尤其是否定詞處理上的嚴重缺陷,令人深思。現時AI技術在醫療影像診斷、產品質量檢測等關鍵領域的應用日益普及,模型若無法準確理解「沒有」、「不」等否定詞,極易導致誤判,甚至危害生命安全或造成重大經濟損失。

這種「肯定偏誤」的現象暴露出訓練數據集的偏差問題——只有「正面」描述的圖片說明,令模型從未學會處理否定。這一點提醒我們,AI系統的可靠性並非單靠模型複雜度或規模便可解決,數據質量和多樣性同樣關鍵。

此外,這也反映出當前AI在理解「語言語義」方面仍有巨大挑戰。否定詞的理解不只是辨識字面意思,更涉及語境、邏輯推理和常識。未來的AI研發應更注重語言與視覺的深度融合,甚至引入符號推理等方法,才能真正提升模型的「理解力」。

對香港及全球的AI應用推廣者來說,這是個警號:在部署視覺語言模型於臨床、工業等敏感領域前,必須進行嚴格的功能測試與風險評估,避免盲目追求技術潮流而忽略安全隱患。更重要的是,相關政策制定者與監管機構應該要求提供透明的性能數據,強制測試模型在否定詞等關鍵語言現象上的表現。

總結來說,MIT的這項研究不僅提出了技術挑戰,更促使整個AI社群重新審視基礎語言理解在視覺語言模型中的地位和重要性。未來AI的發展,不能只看「能做什麼」,更要看「能正確理解什麼」,這將是邁向真正智能的關鍵一步。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

✈️ Mastercard 尊享優惠|預訂機票+酒店減高達 HK$200

2025 年 7 月 4 日 至 10 月 2 日
逢星期五於 Trip.com 使用 Mastercard 預訂機票或酒店,
輸入指定優惠代碼即可享折扣。數量有限,先到先得!

即刻搶代碼 🔗