AI 辨識物件中的「假面」研究發現

Ai

AI pareidolia: Can machines spot faces in inanimate objects?

新數據集揭示人類與算法面部檢測的差異,與動物面部識別的聯繫,以及預測人們最常感知面部的公式。

Rachel Gordon | MIT CSAIL

1994年,佛羅里達州的珠寶設計師Diana Duyser在一塊烤芝士三明治中發現了她認為是聖母瑪利亞的影像,她保存了這塊三明治,並在後來拍賣出了28,000美元的價格。但我們對於Pareidolia(錯視)這種在物體中看到面部和圖案的現象到底了解多少呢?

來自麻省理工學院計算機科學與人工智能實驗室(CSAIL)的新研究深入探討了這一現象,介紹了一個由人類標記的包含5,000張錯視圖像的龐大數據集,遠遠超過了以往的集合。利用這個數據集,研究團隊發現了一些關於人類與機器感知差異的驚人結果,以及在一片烤麵包中看到面部的能力可能是如何拯救遠古親屬生命的。

“面部錯視長期以來一直讓心理學家著迷,但在計算機視覺領域卻基本上未被探索,”MIT電機工程和計算機科學博士生、CSAIL附屬研究員兼本次研究的首席研究員Mark Hamilton說。“我們想創建一個資源,以幫助我們理解人類和AI系統如何處理這些虛幻的面孔。”

那麼這些虛假的面孔揭示了什麼呢?首先,AI模型似乎不像我們那樣識別錯視面孔。令人驚訝的是,團隊發現,直到他們訓練算法識別動物面部後,這些算法才顯著更好地檢測到錯視面孔。這一意外的聯繫暗示了一種可能的進化聯繫,即我們識別動物面部的能力——這對於生存至關重要——以及我們在無生命物體中看到面部的傾向。“這樣的結果似乎表明,錯視可能不是源於人類的社交行為,而是源於更深層的東西:例如快速發現潛伏的老虎,或識別鹿的方向,以便我們的原始祖先能夠狩獵,”Hamilton說。

另一個有趣的發現是研究人員稱之為“錯視的金髮區”,即錯視最有可能發生的一類圖像。“有一個特定的視覺複雜度範圍,人類和機器最有可能在非面部物體中感知到面孔,”MIT電機工程和計算機科學教授兼該項目的首席研究員William T. Freeman說。“太簡單,沒有足夠的細節來形成面部。太複雜,則變成視覺噪聲。”

為了揭示這一點,團隊開發了一個模型,用來模擬人類和算法如何檢測虛幻的面部。在分析這個模型時,他們發現了一個明顯的“錯視峰值”,即在該峰值處看到面部的可能性最高,對應於具有“剛好合適”複雜度的圖像。這個預測的“金髮區”隨後在真人受試者和AI面部檢測系統的測試中得到了驗證。

這個新的數據集“事物中的面孔”遠遠超過了以往研究中使用的僅20-30個刺激物的集合。這樣的規模使研究人員能夠探討最先進的面部檢測算法在對錯視面孔進行微調後的行為,顯示這些算法不僅可以被調整以檢測這些面孔,而且還可以作為我們自己大腦的矽基替代品,允許團隊提出和回答一些在人體上無法問及的問題,例如錯視面部檢測的起源。

為了構建這個數據集,團隊從LAION-5B數據集中精心挑選了約20,000張候選圖像,然後由人類標記員仔細標記和評判。這個過程涉及在感知到的面孔周圍畫出邊界框,並回答關於每個面孔的詳細問題,例如感知的情緒、年齡,以及面部是偶然還是故意的。“收集和標記數千張圖像是一項艱鉅的任務,”Hamilton說。“這個數據集的存在很大程度上要歸功於我的媽媽,”一位退休銀行家,“她花了無數小時細心地標記圖像以供我們分析。”

這項研究還有潛在的應用,可以通過減少誤報來改進面部檢測系統,這對自動駕駛汽車、人機交互和機器人領域可能有重大影響。該數據集和模型還可以幫助產品設計領域,理解和控制錯視可以創造出更好的產品。“想象一下能夠自動調整汽車或兒童玩具的設計,使其看起來更友好,或者確保醫療設備不會無意中顯得威脅性,”Hamilton說。

“人類本能地將無生命物體解釋成人類特徵,這真是令人著迷。例如,當你瞥見一個電插座時,你可能會立即想像它在歌唱,甚至可以想像它‘移動嘴唇’的樣子。然而,算法並不自然地以我們的方式識別這些卡通面孔,”Hamilton說。“這引發了有趣的問題:這種人類感知和算法解釋之間的差異是什麼原因?錯視是有益還是有害的?為什麼算法不像我們那樣經歷這種效應?這些問題激發了我們的研究,因為這一經典的心理現象在人類中得到了充分的探索,但在算法中卻沒有。”

隨著研究人員準備將他們的數據集與科學界分享,他們已經在展望未來。未來的工作可能包括訓練視覺語言模型來理解和描述錯視面孔,這可能會導致AI系統能夠以更類似人類的方式與視覺刺激互動。

“這是一篇令人愉快的論文!讀起來很有趣,讓我思考。Hamilton等人提出了一個引人入勝的問題:為什麼我們會在物體中看到面孔?”加州理工學院的Allen E. Puckett電機工程教授Pietro Perona說,他沒有參與這項工作。“正如他們所指出的,從例子中學習,包括動物面孔,只能部分解釋這一現象。我敢打賭,思考這個問題會教會我們一些關於我們視覺系統如何超越其通過生活所接受的訓練的重要知識。”

Hamilton和Freeman的共同作者包括豐田研究所的員工研究科學家Simon Stent;大腦與認知科學系的首席研究科學家、NVIDIA研究科學家、前CSAIL成員Ruth Rosenholtz;以及CSAIL附屬博士後Vasha DuTell、2023年工程管理碩士畢業生Anne Harrington和研究科學家Jennifer Corbett。他們的工作部分得到了國家科學基金會和CSAIL MEnTorEd Opportunities in Research(METEOR)獎學金的支持,並由美國空軍研究實驗室和美國空軍人工智能加速器贊助。MIT超級雲和林肯實驗室超級計算中心為研究人員的結果提供了高性能計算資源。

這項工作將在本週的歐洲計算機視覺會議上展示。

評論:

這篇文章探討了人類和人工智能在面部識別方面的差異,並揭示了我們在日常物體中看到面部的背後機制。研究團隊發現,通過訓練AI識別動物面部,反而能提高其識別錯視面部的能力,這暗示了一種進化上的聯繫。這一發現既有趣又具有深遠意義,表明我們對這一現象的理解還處於初步階段。

然而,這項研究也引發了一些疑問:在未來,我們是否應該更深入地探討人類感知與機器感知之間的差異?這種差異是否可以應用於改進AI的其他方面?此外,這項研究的應用前景廣闊,從自動駕駛到產品設計,都可能受益於這一新發現。總體而言,這是一項開創性的工作,為我們理解人類感知和機器學習提供了新的視角。

以上文章由特價GPT API KEY所產生

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *