免費!最新GPT 4o 繪圖 + 修圖! 整MEME圖、漫畫一流!

UCLA新AI模型:OpenVLThinker-7B識睇圖推理,勁過人腦?

Ai

加州大學洛杉磯分校研究人員發布 OpenVLThinker-7B:一個基於強化學習的模型,旨在提升多模態系統中的複雜視覺推理和逐步問題解決能力

大型視覺語言模型(LVLMs)將大型語言模型與圖像處理能力結合,使其能夠解釋圖像並生成連貫的文本回應。儘管這些模型在識別視覺對象和回應提示方面表現出色,但在面對需要多步推理的問題時,卻常常表現不佳。視覺語言任務,例如理解圖表、解決視覺數學問題或解釋圖示,要求的不僅僅是識別,還需要根據視覺線索遵循邏輯步驟。儘管模型架構有所進步,但目前的系統在這類複雜情境中仍然難以產生準確且可解釋的答案。

目前視覺語言模型的一大限制是它們無法執行涉及多步邏輯推理的複雜推理,尤其是在解釋圖像與文本查詢時。這些模型通常無法內部驗證或修正其推理,導致產生不正確或淺顯的輸出。此外,這些模型遵循的推理鏈通常缺乏透明度或可驗證性,這使得確保其結論的穩健性變得困難。挑戰在於填補這一推理空白,而文本模型已經開始有效地通過強化學習技術來解決這一問題,但視覺語言模型尚未完全接受這種方法。

在本研究之前,提升這類系統推理能力的努力主要依賴於標準的微調或提示技術。雖然這些方法在基本任務中有所幫助,但往往導致冗長或重複的輸出,深度有限。像 Qwen2.5-VL-7B 這樣的視覺語言模型因其視覺指令跟隨能力顯示出潛力,但在多步推理方面卻無法與其純文本對應物(如 DeepSeek-R1)相提並論。即使在結構化查詢的提示下,這些模型也難以反思其輸出或驗證中間推理步驟。這對於需要結構化決策的應用場景,如視覺問題解決或教育支持工具,構成了顯著的瓶頸。

來自加州大學洛杉磯分校的研究人員推出了一個名為 OpenVLThinker-7B 的模型。該模型通過一種新穎的訓練方法開發,該方法將監督性微調(SFT)和強化學習(RL)結合在一個迭代循環中。這一過程始於使用 Qwen2.5-VL-3B 生成圖像標題,並將其輸入到 DeepSeek-R1 的精簡版本中,以生成結構化推理鏈。這些輸出形成了第一輪 SFT 的訓練數據,指導模型學習基本推理結構。隨後,使用群體相對策略優化(GRPO)的強化學習階段被應用,以根據獎勵反饋來細化模型的推理。這種組合使模型能夠逐步自我提升,利用每次迭代的精煉輸出作為下一輪循環的新訓練數據。

這一方法涉及仔細的數據策劃和多個訓練階段。在第一輪迭代中,使用了 25,000 個來自 FigureQA、Geometry3K、TabMWP 和 VizWiz 等數據集的範例進行 SFT,並對這些範例進行過濾,以去除過於冗長或重複的反思,從而提高訓練質量。然後,GRPO 被應用於一個更小、更困難的 5,000 個樣本的數據集。這使得在 MathVista 基準測試中的準確率從 62.5% 提升至 65.6%。在第二輪迭代中,又使用了 5,000 個高質量範例進行 SFT,準確率提高至 66.1%。第二輪 GRPO 進一步將性能提升至 69.4%。在這些階段中,模型在多個基準測試(MathVista、MathVerse 和 MathVision)上進行了評估,顯示出每次迭代均有穩定的性能增長。

從定量角度來看,OpenVLThinker-7B 在多個基準測試中明顯超越了其基礎模型 Qwen2.5-VL-7B。在 MathVista 上,準確率達到 70.2%,而基礎模型的準確率僅為 50.2%。在 MathVerse 上,從 46.8% 提升至 68.5%。MathVision 的完整測試準確率從 24.0% 上升到 29.6%,而 MathVision testmini 的準確率也從 25.3% 提升至 30.4%。這些改進表明,模型學會了遵循推理模式,並在未見的多模態任務中有更好的泛化能力。每次訓練迭代都帶來可測量的增益,展示了結合微調與基於獎勵的學習在循環結構中的優勢。

這個模型的核心優勢在於其迭代結構。它不僅依賴於龐大的數據集,而是專注於質量和結構。每一個 SFT 和 RL 的循環都提高了模型理解圖像、問題和答案之間關係的能力。自我驗證和修正行為,最初在標準 LVLM 中缺乏,通過帶有可驗證獎勵信號的強化學習而自然而然地產生,這使得 OpenVLThinker-7B 能夠生成邏輯一致且可解釋的推理痕跡。即使是一些微小的改進,例如減少冗餘的自我反思或縮短推理鏈的準確性提升,也對其整體性能增益作出了貢獻。

研究的幾個關鍵要點:

– 加州大學洛杉磯分校的研究人員利用結合 SFT 和 RL 的方法開發了 OpenVLThinker-7B,該模型以 Qwen2.5-VL-7B 為基礎。
– 使用了涉及標題生成、推理蒸餾以及交替 SFT 和 GRPO 強化學習的迭代訓練循環。
– 初始 SFT 使用了 25,000 個過濾範例,而 RL 階段則使用了來自 Geometry3K 和 SuperCLEVR 等數據集的 5,000 個更難的樣本。
– 在 MathVista 上,準確率從 50.2%(基礎模型)提升至 70.2%。MathVerse 準確率從 46.8% 飆升至 68.5%,其他數據集也有顯著增長。
– GRPO 通過獎勵正確答案有效細化了推理行為,減少了冗長性,提高了邏輯一致性。
– 每次訓練迭代都導致逐步的性能增長,證實了自我改進策略的有效性。
– 為將 R1 風格的多步推理引入多模態模型建立了一條可行的路徑,對教育、視覺分析和輔助技術應用具有重要意義。

這項研究展示了強化學習在推進視覺語言模型推理能力方面的潛力,並為未來的多模態應用提供了新的思路。隨著技術的進步,這些模型在教育、視覺數據分析和智能輔助技術中的應用將變得越來越重要,這不僅能提高學習效果,也能促進更智能的決策過程。這樣的發展值得業界和學術界的廣泛關注和深入研究。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon