MIT發現AI影像語言模型唔識「否定詞」!

Ai

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援
Flux Gemini Nano Banana Pro 改圖 / 合成
打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩

✨ 即刻玩 AI 畫圖

add lotso and hamm
Create a photorealistic movie-poster image for Zootopia 2. The scene shows a young Asian man and an oversized black shirt standing inside a crowded, dimly lit cinema. He’s flanked by Judy Hopps in full police uniform and Nick Wilde, both rendered in their official Disney CGI style. Capture the shot from a low angle so the characters feel larger than life. The cinema screen behind them is glowing with an intense action scene from the film. Let the light from the screen spill across their faces and clothing to create dramatic high contrast. The environment should feel alive with background silhouettes, soft haze, and the warm ambience of a packed theatre. Style the composition like an official Disney promotional poster: epic layout, sharp detail, high resolution, balanced framing, and clean edges. The man and the cinema should be fully photorealistic, while Judy and Nick retain their signature animated look.
At the bottom, include:
• The Disney logo
• The title ZOOTOPIA 2 in bold green and white
• The release line ONLY IN THEATERS NOVEMBER 26 Poster tone: cinematic, polished, high-end theatrical marketing.
A dynamic, ultra-realistic action shot of a snowboarder performing a high-air jump on a snowy mountain slope. The rider wears a bright green winter jacket, black snow pants, gloves, and a dark beanie, with reflective goggles catching the cold mountain light. A cloud of visible breath escapes from the rider’s mouth in the freezing air. Snow explodes upward from the snowboard, creating sharp, frozen particles suspended mid-air. The background features a dramatic high-altitude landscape with forested slopes and distant mountains under soft, cold blue lighting. Capture cinematic contrast, DSLR realism, 85mm lens, f/2.8, crisp details, slow-motion energy, dynamic composition, atmospheric depth, high-clarity sports photography.

研究發現視覺語言模型無法處理帶有否定詞的查詢

麻省理工學院(MIT)最新研究指出,像「不」和「沒有」這類否定詞,會令目前廣泛應用於醫療診斷等高風險場景的視覺語言模型(Vision-Language Models, VLMs)出現意料之外的錯誤。

想像一位放射科醫生在檢查胸部X光片時,發現病人組織有腫脹,但心臟並未擴大。醫生為了加快診斷,可能會用視覺語言模型搜尋其他類似病人的報告。但如果模型無法正確理解「沒有心臟擴大」這類否定詞,錯誤地將有心臟擴大和沒有心臟擴大的報告混淆,診斷結果就會大相逕庭。因為有心臟擴大的腫脹多半與心臟病有關,而沒有心臟擴大則可能有多種其他成因。

MIT的研究團隊發現,這類視覺語言模型在現實中極易犯下這種錯誤,主要是因為它們根本不理解否定詞的意義。主導研究的MIT研究生Kumail Alhamoud指出:「否定詞有非常重要的影響,如果我們盲目使用這些模型,後果可能非常嚴重。」

研究人員先測試模型對圖片說明中否定詞的識別能力,結果模型表現與隨機猜測無異。為了改善,他們製作了一個包含否定詞描述缺失物品的圖片說明數據集。透過這個數據集重新訓練模型後,模型在檢索不包含特定物品的圖片時表現有所提升,並且在多項選擇題的否定說明判斷上準確度也提高。

不過,研究團隊提醒,這只是初步改進,問題的根源仍需深入探討。他們希望此研究能提醒使用者注意這項被忽略的弱點,特別是在醫療等重要場景中,這缺陷可能導致錯誤決策,影響病人治療或工廠產品檢測。

MIT電機工程與計算機科學系副教授、此研究的資深作者Marzyeh Ghassemi強調:「這是技術層面的問題,但背後有更大的議題。如果連最基本的否定理解都出錯,我們就不應該在未經嚴格評估下廣泛使用這些大型視覺語言模型。」

視覺語言模型通常是基於大量圖片及其說明文字訓練而成,模型學習將圖片與相對應的文字轉換成向量表示,並嘗試匹配相似的向量。然而,現有的圖片說明幾乎都只描述圖片中「有什麼」,很少提及「沒有什麼」,因此模型根本沒有機會學習否定的概念。

研究團隊設計了兩個基準測試來評估模型的否定理解能力。第一個測試利用大型語言模型重新生成帶有否定詞的圖片說明,然後測試視覺語言模型根據含否定詞的提示檢索圖片的能力。第二個則是多選題,要求模型從多個相似說明中選出最貼切的,這些說明中有些包含否定詞,有些不包含。

結果顯示,模型在含否定詞的檢索任務中表現大跌約25%,多選題的最高準確率僅約39%,甚至有些模型表現不及隨機猜測。研究人員將這現象稱為「肯定偏誤」(affirmation bias),即模型傾向忽略否定詞,專注於圖片中出現的物體,無論用什麼方式表達否定,模型都會忽略。

為了改善這一點,團隊利用含有一千萬對圖片與文字說明的數據集,請大型語言模型生成帶有否定詞的合成說明,並小心確保這些說明自然流暢。利用這個數據集對視覺語言模型進行微調後,模型在圖片檢索任務中表現提升約10%,多選題準確率提升約30%。

Alhamoud表示:「我們的解決方案並不完美,僅是利用數據增強方法重新標註說明文字,尚未改變模型架構。但這證明這個問題是可解決的,希望其他研究者能在此基礎上繼續改進。」

未來,研究團隊計劃探索讓視覺語言模型分別處理圖片與文字的方式,以增強否定詞的理解能力,同時開發針對特定應用(如醫療)的專用數據集。

評論與啟示

這項研究揭示了目前視覺語言模型在基礎語言理解,尤其是否定詞處理上的嚴重缺陷,令人深思。現時AI技術在醫療影像診斷、產品質量檢測等關鍵領域的應用日益普及,模型若無法準確理解「沒有」、「不」等否定詞,極易導致誤判,甚至危害生命安全或造成重大經濟損失。

這種「肯定偏誤」的現象暴露出訓練數據集的偏差問題——只有「正面」描述的圖片說明,令模型從未學會處理否定。這一點提醒我們,AI系統的可靠性並非單靠模型複雜度或規模便可解決,數據質量和多樣性同樣關鍵。

此外,這也反映出當前AI在理解「語言語義」方面仍有巨大挑戰。否定詞的理解不只是辨識字面意思,更涉及語境、邏輯推理和常識。未來的AI研發應更注重語言與視覺的深度融合,甚至引入符號推理等方法,才能真正提升模型的「理解力」。

對香港及全球的AI應用推廣者來說,這是個警號:在部署視覺語言模型於臨床、工業等敏感領域前,必須進行嚴格的功能測試與風險評估,避免盲目追求技術潮流而忽略安全隱患。更重要的是,相關政策制定者與監管機構應該要求提供透明的性能數據,強制測試模型在否定詞等關鍵語言現象上的表現。

總結來說,MIT的這項研究不僅提出了技術挑戰,更促使整個AI社群重新審視基礎語言理解在視覺語言模型中的地位和重要性。未來AI的發展,不能只看「能做什麼」,更要看「能正確理解什麼」,這將是邁向真正智能的關鍵一步。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗