UCLA新AI模型:OpenVLThinker-7B識睇圖推理,勁過人腦?

Ai




加州大學洛杉磯分校研究人員發布 OpenVLThinker-7B:一個基於強化學習的模型,旨在提升多模態系統中的複雜視覺推理和逐步問題解決能力

大型視覺語言模型(LVLMs)將大型語言模型與圖像處理能力結合,使其能夠解釋圖像並生成連貫的文本回應。儘管這些模型在識別視覺對象和回應提示方面表現出色,但在面對需要多步推理的問題時,卻常常表現不佳。視覺語言任務,例如理解圖表、解決視覺數學問題或解釋圖示,要求的不僅僅是識別,還需要根據視覺線索遵循邏輯步驟。儘管模型架構有所進步,但目前的系統在這類複雜情境中仍然難以產生準確且可解釋的答案。

目前視覺語言模型的一大限制是它們無法執行涉及多步邏輯推理的複雜推理,尤其是在解釋圖像與文本查詢時。這些模型通常無法內部驗證或修正其推理,導致產生不正確或淺顯的輸出。此外,這些模型遵循的推理鏈通常缺乏透明度或可驗證性,這使得確保其結論的穩健性變得困難。挑戰在於填補這一推理空白,而文本模型已經開始有效地通過強化學習技術來解決這一問題,但視覺語言模型尚未完全接受這種方法。

在本研究之前,提升這類系統推理能力的努力主要依賴於標準的微調或提示技術。雖然這些方法在基本任務中有所幫助,但往往導致冗長或重複的輸出,深度有限。像 Qwen2.5-VL-7B 這樣的視覺語言模型因其視覺指令跟隨能力顯示出潛力,但在多步推理方面卻無法與其純文本對應物(如 DeepSeek-R1)相提並論。即使在結構化查詢的提示下,這些模型也難以反思其輸出或驗證中間推理步驟。這對於需要結構化決策的應用場景,如視覺問題解決或教育支持工具,構成了顯著的瓶頸。

來自加州大學洛杉磯分校的研究人員推出了一個名為 OpenVLThinker-7B 的模型。該模型通過一種新穎的訓練方法開發,該方法將監督性微調(SFT)和強化學習(RL)結合在一個迭代循環中。這一過程始於使用 Qwen2.5-VL-3B 生成圖像標題,並將其輸入到 DeepSeek-R1 的精簡版本中,以生成結構化推理鏈。這些輸出形成了第一輪 SFT 的訓練數據,指導模型學習基本推理結構。隨後,使用群體相對策略優化(GRPO)的強化學習階段被應用,以根據獎勵反饋來細化模型的推理。這種組合使模型能夠逐步自我提升,利用每次迭代的精煉輸出作為下一輪循環的新訓練數據。

這一方法涉及仔細的數據策劃和多個訓練階段。在第一輪迭代中,使用了 25,000 個來自 FigureQA、Geometry3K、TabMWP 和 VizWiz 等數據集的範例進行 SFT,並對這些範例進行過濾,以去除過於冗長或重複的反思,從而提高訓練質量。然後,GRPO 被應用於一個更小、更困難的 5,000 個樣本的數據集。這使得在 MathVista 基準測試中的準確率從 62.5% 提升至 65.6%。在第二輪迭代中,又使用了 5,000 個高質量範例進行 SFT,準確率提高至 66.1%。第二輪 GRPO 進一步將性能提升至 69.4%。在這些階段中,模型在多個基準測試(MathVista、MathVerse 和 MathVision)上進行了評估,顯示出每次迭代均有穩定的性能增長。

從定量角度來看,OpenVLThinker-7B 在多個基準測試中明顯超越了其基礎模型 Qwen2.5-VL-7B。在 MathVista 上,準確率達到 70.2%,而基礎模型的準確率僅為 50.2%。在 MathVerse 上,從 46.8% 提升至 68.5%。MathVision 的完整測試準確率從 24.0% 上升到 29.6%,而 MathVision testmini 的準確率也從 25.3% 提升至 30.4%。這些改進表明,模型學會了遵循推理模式,並在未見的多模態任務中有更好的泛化能力。每次訓練迭代都帶來可測量的增益,展示了結合微調與基於獎勵的學習在循環結構中的優勢。

這個模型的核心優勢在於其迭代結構。它不僅依賴於龐大的數據集,而是專注於質量和結構。每一個 SFT 和 RL 的循環都提高了模型理解圖像、問題和答案之間關係的能力。自我驗證和修正行為,最初在標準 LVLM 中缺乏,通過帶有可驗證獎勵信號的強化學習而自然而然地產生,這使得 OpenVLThinker-7B 能夠生成邏輯一致且可解釋的推理痕跡。即使是一些微小的改進,例如減少冗餘的自我反思或縮短推理鏈的準確性提升,也對其整體性能增益作出了貢獻。

研究的幾個關鍵要點:

– 加州大學洛杉磯分校的研究人員利用結合 SFT 和 RL 的方法開發了 OpenVLThinker-7B,該模型以 Qwen2.5-VL-7B 為基礎。
– 使用了涉及標題生成、推理蒸餾以及交替 SFT 和 GRPO 強化學習的迭代訓練循環。
– 初始 SFT 使用了 25,000 個過濾範例,而 RL 階段則使用了來自 Geometry3K 和 SuperCLEVR 等數據集的 5,000 個更難的樣本。
– 在 MathVista 上,準確率從 50.2%(基礎模型)提升至 70.2%。MathVerse 準確率從 46.8% 飆升至 68.5%,其他數據集也有顯著增長。
– GRPO 通過獎勵正確答案有效細化了推理行為,減少了冗長性,提高了邏輯一致性。
– 每次訓練迭代都導致逐步的性能增長,證實了自我改進策略的有效性。
– 為將 R1 風格的多步推理引入多模態模型建立了一條可行的路徑,對教育、視覺分析和輔助技術應用具有重要意義。

這項研究展示了強化學習在推進視覺語言模型推理能力方面的潛力,並為未來的多模態應用提供了新的思路。隨著技術的進步,這些模型在教育、視覺數據分析和智能輔助技術中的應用將變得越來越重要,這不僅能提高學習效果,也能促進更智能的決策過程。這樣的發展值得業界和學術界的廣泛關注和深入研究。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
攝影主題:暖陽下的清新隨興肖像
人物與神態: 一位擁有烏黑長髮的年輕女性,左手輕扶髮絲,髮絲隨風輕拂臉龐。她展現燦爛自信的笑容,露出潔白牙齒,眼神明亮,散發青春活力的感染力,動作俏皮可愛。
服裝細節: 
上衣: 米白色寬鬆針織毛衣,材質柔軟。右肩自然滑落(露肩設計),展現優美的鎖骨線條;短版剪裁露出平坦腹部與肚臍。
下裝: 復古洗色藍色牛仔褲,細節可見鈕扣與部分拉鍊。
配飾: 左肩背著米色帆布環保袋,袋面上印有「Made in Kowloon」等深色文藝感字樣。
場景與構圖: 戶外環境(如公園或林蔭道),背景呈現柔焦效果,可見模糊的綠意樹葉與遠處人影。主體居中,背景的虛化使人物極致突出。
光線與氛圍: 採用自然光攝影,陽光從右上方灑落,於頭髮、肩膀與衣物纖維上形成鮮明的光影對比。整體呈現溫暖的米、藍、綠色調,畫質達 4K 寫實等級,光影層次豐富,營造出輕鬆愉悅的高級攝影感 Base Setup
keep 100 percent facial information adherence of the attached image and turn her into a girl standing beneath autumn leaves outside a traditional wooden structure in a live action photograph or movie still, wearing a complex suggestive outfit that harmonizes with the warm fall tones.

Shot and Camera
Three quarter shot at slightly low height, framing her off center to the right so the yellow leaves and carved wooden panels dominate the left. Maintain the intimate close framing and vertical orientation feel of the reference.

Identity and Pose
Preserve her age read, build, silhouette, hairstyle length, and skin tone. She leans lightly against the doorframe, one hand grazing a hanging leaf, her posture relaxed and candid, 8k Photorealistic and hyper realistic.

Lighting and Environment
Soft warm daylight filters through the leaves, casting dappled highlights on her hair and outfit. Ground her feet on aged wooden flooring with natural grain, faint scuffs, and subtle contact shadows.

Masking and Constraints
Change only wardrobe and placement while keeping lighting, perspective, white balance, pose, face geometry, body proportions, and silhouette the same. Absolutely no added text, no CGI look, no plastic skin, no floating feet, with consistent perspective and correct contact shadows. Edit the uploaded photo (face based on the reference photo). Ensure the face remains consistent with the person in the uploaded image, without changing facial structure, skin tone . Create a Create an 8K ultra-realistic image of woman dancing joyfully in the rain at night, wearing a white sleeveless dress that flares out as she twirls. She has a bright, happy expression on her face. The background features softly glowing streetlights reflecting on a wet surface, creating a warm, shimmering ambiance. The rain is falling steadily, adding a dynamic and lively atmosphere to the scene.Using a Canon EOS R camera with a 50mm f/1.8 lens, f/2.2 aperture, shutter speed 1/200s, ISO 100 and natural light, Full Body, Hyper Realistic Photography, Cinematic, Cinema, Hyper detail, Ultra hd, Color Correction, ultra hd, hdr , color grading, 8k.