MIT新AI技術即學即尋專屬物件！

zero comment

新訓練方法教生成式AI模型定位個人化物件

當使用這種技術訓練後，視覺語言模型能更準確地識別新場景中的獨特物件。

想像一個人帶住佢嘅法國鬥牛犬Bowser去狗公園。主人喺現場輕鬆就可以分辨到Bowser喺一眾狗隻中。而如果想用像GPT-5這類生成式AI模型喺自己返工時監察寵物，模型很可能連呢個基本任務都做唔好。視覺語言模型（Vision-Language Models, VLMs）雖然擅長識別一般物件，例如狗，但對於定位像Bowser咁嘅個人化物件就表現平平。

為了解決呢個問題，麻省理工學院（MIT）同MIT-IBM Watson AI實驗室嘅研究團隊開發咗一種新嘅訓練方法，教導視覺語言模型喺場景中定位個人化物件。

佢哋嘅方法係利用精心準備嘅視頻追蹤數據，追蹤同一物件喺多個畫面中嘅位置。佢哋設計呢個數據集，迫使模型必須依靠場景嘅上下文線索嚟識別個人化物件，而唔係靠之前記憶嘅知識。

當模型收到幾張展示某個個人化物件（例如寵物）嘅示範圖片後，就能更準確咁喺新圖片中定位同一物件。

經過新方法重新訓練嘅模型喺呢項任務中表現優勝過現有最先進系統，且唔會影響模型原有嘅一般能力。

呢個新方法未來可以幫助AI系統喺時間軸上追蹤特定物件，例如小朋友嘅書包，或者定位生態監測中感興趣嘅動物物種。亦有助於開發AI輔助技術，幫助視障人士喺屋企搵到指定物品。

MIT博士後研究員Jehanzeb Mirza表示：「我哋希望模型能夠像人類一樣從上下文學習。如果模型做到呢點，唔使為每個新任務重新訓練，只需提供幾個示例，模型就能根據上下文推理完成任務。呢種能力非常強大。」

該論文嘅其他作者包括Weizmann科學研究所嘅Sivan Doveh博士生、IBM研究員Nimrod Shabtay、MIT計算機科學與人工智能實驗室（CSAIL）語音語言系統組負責人James Glass等。研究成果將於國際計算機視覺會議發表。

意料之外的短板

大型語言模型（LLMs）在上下文學習方面表現優異，例如只要給予幾個加法例子，就能解答新嘅加法問題。視覺語言模型基本上係帶有視覺組件嘅LLM，理應繼承LLM嘅上下文學習能力，但事實並非如此。

Mirza指出：「研究界尚未找到明確答案。瓶頸可能係視覺信息喺融合過程中有所損失，但我哋仍未清楚。」

團隊專注提升VLM嘅上下文定位能力，即喺新圖像中尋找特定物件。他們從現有視頻追蹤數據中挑選樣本，製作新數據集。視頻展示同一物件喺不同場景移動，例如老虎穿越草原。

他們將視頻截取成多張圖片，並結合問題及答案，讓每個輸入包含同一物件喺不同上下文中嘅多張圖像，促使模型通過上下文一致定位目標物件。

強迫模型聚焦上下文

不過，研究發現VLM容易作弊，唔係靠上下文判斷，而係用預訓練時學到嘅知識識別物件。例如模型已知道「老虎」與其圖片相關，就直接根據這種先驗知識識別，而非從上下文推理。

為此，研究團隊用假名字代替真實物件類別名稱，例如將老虎稱為「Charlie」，令模型唔能依靠預訓練知識，必須從上下文找線索。

Mirza說：「我哋花咗啲時間先阻止模型作弊。改用假名後，模型唔知道『Charlie』係老虎，迫使佢睇上下文。」

另外，選擇適當嘅視頻截取間隔亦係挑戰，畫面太近背景變化唔大，數據多樣性不足。

最終，使用新數據集微調VLM後，個人化定位準確率平均提升約12%，加入假名後提升達21%。而模型越大，性能提升越明顯。

未來，研究人員想探討點解VLM唔能繼承LLM嘅上下文學習能力，並嘗試其他方法提升VLM表現，避免每次都要重新訓練。

Mila-Quebec人工智能研究所博士後Saurav Jha評論：「呢項工作將少量示例嘅個人化物件定位問題，重新定義為指令微調問題，利用視頻追蹤序列教導VLM基於視覺上下文而非物件類別先驗定位。佢哋亦推出咗首個此類基準，喺多個開放及專有模型中均有顯著提升。喺機器人、擴增實境助手、創意工具等實際應用中，快速、實例特定嘅定位能力極為重要，呢個實用且數據驅動嘅方案有助推廣視覺語言基礎模型嘅廣泛應用。」

其他共同作者包括Johannes Kepler大學嘅Wei Lin、IBM研究嘅Eli Schwartz、圖賓根AI中心嘅Hilde Kuehne教授、特拉維夫大學嘅Raja Giryes副教授、MIT-IBM Watson AI實驗室嘅Rogerio Feris、IBM研究嘅Leonid Karlinsky及Assaf Arbelle研究員，以及Weizmann科學研究所嘅Shimon Ullman教授。研究部分由MIT-IBM Watson AI實驗室資助。

—

編輯評論：

呢篇報道反映出生成式AI發展中一個鮮為人知但極重要嘅挑戰：模型嘅上下文學習能力並非自動從大型語言模型遺傳到視覺語言模型。以往大家可能誤以為只要加上視覺模組，AI自然能像人類一樣靈活處理新場景中嘅個人化物件，但實際上模型會「作弊」用先前知識，忽略環境上下文，限制咗AI在真實應用中嘅靈活性。

MIT團隊嘅創新之處係用視頻追蹤數據製作連貫嘅場景變化，並用假名迫使模型真正理解上下文，令AI從根本學習「識物」而非死背標籤。呢種思路突破咗純粹數據堆砌嘅瓶頸，係推動AI更貼近人類認知方式嘅重要一步。

未來呢種技術喺智能家居、安防監控、擴增實境甚至輔助視障人士等場景均有廣泛潛力。尤其喺AI要處理多變且個人化嘅世界時，具備上下文推理能力嘅視覺語言模型將成為關鍵。

同時，呢篇研究亦提醒業界，AI模型嘅能力唔係簡單疊加，而係融合過程中存有複雜挑戰。只有深入理解模型內部運作及數據特性，先能設計出真正實用且智能嘅系統。

總括而言，MIT嘅研究不單提升AI性能，更啟發我哋重新思考AI學習機制，為生成式AI開創更靈活、更智能嘅未來。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

MIT新AI技術即學即尋專屬物件！

chatgpt

🔥 CHATGPT PLUS 帳戶出租

MIT新AI技術即學即尋專屬物件！

chatgpt

Related Articles

企業知識冇彈性 創新反而受阻風險大

升級ChatGPT Plus前必知嘅5大秘密！

YouTube全新品牌形象大揭秘！

🔥 CHATGPT PLUS 帳戶出租

企業知識冇彈性　創新反而受阻風險大