「ChatRex：突破視覺理解的新一代AI模型」

zero comment

ChatRex：一種具有解耦感知設計的多模態大型語言模型（MLLM）

多模態大型語言模型（MLLM）在視覺理解上展現了令人印象深刻的能力。然而，這些模型在細粒度感知任務（例如物體檢測）上面臨重大挑戰，這對於自動駕駛和機器人導航等應用至關重要。當前模型未能實現精確的檢測，這反映在即使是最先進的系統（如Qwen2-VL）在COCO數據集上的召回率僅為43.9%。這一差距源於感知和理解任務之間的內在衝突，以及無法公平平衡這兩個所需部分的有限數據集。

傳統上，將感知納入MLLM的努力通常涉及將邊界框的坐標進行標記，以適應這種自回歸模型。儘管這些技術保證了與理解任務的兼容性，但它們卻遭遇了連鎖錯誤、模糊的物體預測順序以及在複雜圖像中的量化不準確性。例如，基於檢索的感知框架如Groma和Shikra可以改變物體的檢測，但在多樣化任務上的實際表現並不強大。此外，這些限制還加上了訓練數據集的不足，無法滿足感知和理解的雙重要求。

為了克服這一挑戰，國際數字經濟學院（IDEA）的研究人員開發了ChatRex，這是一種先進的MLLM，設計上具有解耦架構，嚴格區分感知和理解任務。ChatRex基於一個檢索框架，將物體檢測視為檢索邊界框索引，而不是直接的坐標預測。這一新穎的表述消除了量化錯誤並提高了檢測的準確性。研究人員還開發了一個通用提議網絡（UPN），用於生成全面的細粒度和粗粒度邊界框提議，解決物體表示中的模糊性。該架構進一步整合了雙重視覺編碼器，將高分辨率和低分辨率的視覺特徵整合在一起，以提高物體標記的精確度。訓練過程還得到了新開發的Rexverse-2M數據集的增強，這是一個包含大量帶有多粒度註釋的標註圖像的數據集，從而確保了感知和理解任務之間的平衡訓練。

通用提議網絡基於DETR。UPN在多個粒度層次生成穩健的邊界框提議，有效減輕了跨數據集物體標記的一致性問題。UPN可以通過在訓練過程中使用細粒度和粗粒度提示，準確檢測不同場景中的物體。雙重視覺編碼器使視覺編碼能夠以緊湊和高效的方式進行，通過用低分辨率表示替換高分辨率圖像特徵來實現。用於訓練的數據集Rexverse-2M包含超過兩百萬張標註圖像，附帶區域描述、邊界框和標題，平衡了ChatRex的理解和上下文分析的感知。

ChatRex在感知和理解基準測試中表現出色，超越了所有現有模型。在物體檢測方面，它在COCO和LVIS等數據集上的精確度、召回率和均值平均精度（mAP）得分均優於競爭對手。在涉及物體檢測時，ChatRex能夠準確地將描述性表達與相應物體關聯，這解釋了其處理文本輸入和視覺輸入之間複雜互動的能力。該系統在生成有根據的圖像標題、回答區域特定查詢和物體感知的對話場景方面進一步表現卓越。這一成功源於其解耦架構、基於檢索的檢測策略以及Rexverse-2M數據集所支持的廣泛訓練。

ChatRex是首個解決感知和理解任務長期衝突的多模態AI模型。其創新的設計結合強大的訓練數據集，為MLLM設立了新標準，實現了精確的物體檢測和豐富的上下文理解。這兩種能力在動態和複雜環境中開啟了新的應用，顯示出感知和理解的整合如何釋放多模態系統的全部潛力。

這個研究的成果展示了MLLM未來的發展潛力，尤其在自動駕駛、智能監控等領域的應用前景。我們不妨思考，這樣的技術能否在日常生活中帶來更高的安全性和便利性？此外，未來是否會出現更多類似ChatRex的模型，進一步推動人機交互的智能化？這些問題都值得我們持續關注和探索。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

「ChatRex：突破視覺理解的新一代AI模型」

chatgpt

發佈留言取消回覆

「ChatRex：突破視覺理解的新一代AI模型」

chatgpt

發佈留言 取消回覆

Related Articles

Jefferies大幅沽出阿里巴巴股票揭秘！

AI發展新挑戰：開放模型與倫理抉擇

中國突破美國晶片封鎖 AI市場大洗牌！

發佈留言取消回覆