ChatRex:一種具有解耦感知設計的多模態大型語言模型(MLLM)
多模態大型語言模型(MLLM)在視覺理解上展現了令人印象深刻的能力。然而,這些模型在細粒度感知任務(例如物體檢測)上面臨重大挑戰,這對於自動駕駛和機器人導航等應用至關重要。當前模型未能實現精確的檢測,這反映在即使是最先進的系統(如Qwen2-VL)在COCO數據集上的召回率僅為43.9%。這一差距源於感知和理解任務之間的內在衝突,以及無法公平平衡這兩個所需部分的有限數據集。
傳統上,將感知納入MLLM的努力通常涉及將邊界框的坐標進行標記,以適應這種自回歸模型。儘管這些技術保證了與理解任務的兼容性,但它們卻遭遇了連鎖錯誤、模糊的物體預測順序以及在複雜圖像中的量化不準確性。例如,基於檢索的感知框架如Groma和Shikra可以改變物體的檢測,但在多樣化任務上的實際表現並不強大。此外,這些限制還加上了訓練數據集的不足,無法滿足感知和理解的雙重要求。
為了克服這一挑戰,國際數字經濟學院(IDEA)的研究人員開發了ChatRex,這是一種先進的MLLM,設計上具有解耦架構,嚴格區分感知和理解任務。ChatRex基於一個檢索框架,將物體檢測視為檢索邊界框索引,而不是直接的坐標預測。這一新穎的表述消除了量化錯誤並提高了檢測的準確性。研究人員還開發了一個通用提議網絡(UPN),用於生成全面的細粒度和粗粒度邊界框提議,解決物體表示中的模糊性。該架構進一步整合了雙重視覺編碼器,將高分辨率和低分辨率的視覺特徵整合在一起,以提高物體標記的精確度。訓練過程還得到了新開發的Rexverse-2M數據集的增強,這是一個包含大量帶有多粒度註釋的標註圖像的數據集,從而確保了感知和理解任務之間的平衡訓練。
通用提議網絡基於DETR。UPN在多個粒度層次生成穩健的邊界框提議,有效減輕了跨數據集物體標記的一致性問題。UPN可以通過在訓練過程中使用細粒度和粗粒度提示,準確檢測不同場景中的物體。雙重視覺編碼器使視覺編碼能夠以緊湊和高效的方式進行,通過用低分辨率表示替換高分辨率圖像特徵來實現。用於訓練的數據集Rexverse-2M包含超過兩百萬張標註圖像,附帶區域描述、邊界框和標題,平衡了ChatRex的理解和上下文分析的感知。
ChatRex在感知和理解基準測試中表現出色,超越了所有現有模型。在物體檢測方面,它在COCO和LVIS等數據集上的精確度、召回率和均值平均精度(mAP)得分均優於競爭對手。在涉及物體檢測時,ChatRex能夠準確地將描述性表達與相應物體關聯,這解釋了其處理文本輸入和視覺輸入之間複雜互動的能力。該系統在生成有根據的圖像標題、回答區域特定查詢和物體感知的對話場景方面進一步表現卓越。這一成功源於其解耦架構、基於檢索的檢測策略以及Rexverse-2M數據集所支持的廣泛訓練。
ChatRex是首個解決感知和理解任務長期衝突的多模態AI模型。其創新的設計結合強大的訓練數據集,為MLLM設立了新標準,實現了精確的物體檢測和豐富的上下文理解。這兩種能力在動態和複雜環境中開啟了新的應用,顯示出感知和理解的整合如何釋放多模態系統的全部潛力。
這個研究的成果展示了MLLM未來的發展潛力,尤其在自動駕駛、智能監控等領域的應用前景。我們不妨思考,這樣的技術能否在日常生活中帶來更高的安全性和便利性?此外,未來是否會出現更多類似ChatRex的模型,進一步推動人機交互的智能化?這些問題都值得我們持續關注和探索。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。