微軟AI新招:rStar-Math細模型數學勁過OpenAI?

Ai




微軟AI推出rStar-Math:自我演化的系統2深度思考方法,顯著提升小型語言模型的數學推理能力

數學問題解決一直以來都是人工智能(AI)的重要衡量標準。準確地解決數學問題不僅需要計算精確性,還需要深度推理,而這是即使是先進的語言模型(LLMs)也傳統上面臨挑戰的領域。許多現有模型依賴心理學家所稱的「系統1思維」,這種思維方式雖然速度快,但往往容易出錯。這種方法在單次推理中生成解決方案,繞過了解決複雜問題所需的迭代推理過程。此外,訓練高質量模型依賴於精心策劃的數據集,而這些數據集在競賽級數學問題中尤其稀缺。開源方法通常無法超越其「教師」模型的能力,導致進展有限。因此,開發能夠應對這些挑戰的高效AI系統仍然顯得遙不可及。

微軟推出的rStar-Math是一種自我演化的系統2風格推理框架,旨在增強小型語言模型(SLMs)在數學問題解決方面的能力。rStar-Math的模型大小僅為70億參數,但其表現可與OpenAI的o1模型相媲美,甚至在挑戰性的數學競賽基準中有所超越。該系統利用蒙特卡羅樹搜索(MCTS)和自我演化策略來強化SLMs的推理能力。

與傳統依賴於從較大模型中提煉的方式不同,rStar-Math使小型模型能夠通過逐步推理過程獨立生成高質量的訓練數據。該框架採用代碼增強的思路鏈(CoT)數據合成、過程偏好模型(PPM)和迭代自我演化技術。這些進展使rStar-Math在數學基準測試中取得了顯著的準確性,包括MATH數據集和美國數學奧林匹克(AIME),在這些測試中它的表現位居高中生的前20%。

技術創新與優勢

rStar-Math的成功建立在三個核心創新之上:

1. **代碼增強的CoT數據合成**:
該系統使用MCTS展開來生成逐步驗證的推理軌跡。這種方法確保中間步驟通過Python代碼執行進行驗證,過濾錯誤並提高整體數據質量。

2. **過程偏好模型(PPM)**:
與傳統的獎勵模型不同,PPM通過成對排名來優化推理步驟。這種方法避免了噪音標註,並為步驟級優化提供了細緻的反饋,從而提高了中間評估的可靠性。

3. **自我演化配方**:
通過四輪的自我演化,rStar-Math逐步改進其政策模型和PPM。該系統從747,000個數學問題的數據集開始,生成數百萬個高質量解決方案,隨著每次迭代,挑戰越來越大的問題,推理能力不斷提升。

這些創新使rStar-Math成為學術和競賽級數學挑戰的強大工具。此外,通過使小型模型能夠自我生成數據,rStar-Math減少了對大型資源密集型模型的依賴,擴大了高級AI能力的可獲得性。

結果與見解

rStar-Math重新定義了小型模型在數學推理中的基準。在MATH數據集中,它的準確率達到90.0%,相比之下,Qwen2.5-Math-7B的準確率僅為58.8%。同樣,在Phi3-mini-3.8B上的表現從41.4%提升至86.4%,顯示出相對於OpenAI的o1-preview模型的顯著進步。

在AIME競賽中,rStar-Math解決了53.3%的問題,位列高中參賽者的前20%。除了競賽外,該系統在奧林匹克級數學、大學級問題和高考考試等基準測試中表現出色,甚至超越了更大型的開源模型。這些結果凸顯了其在多樣化數學挑戰中的普遍化能力。

研究的關鍵發現包括:

– **逐步推理提高可靠性**:驗證的推理軌跡降低了中間步驟的錯誤率,增強了整體模型性能。
– **自我反思的出現**:rStar-Math在問題解決過程中展現了自我修正錯誤推理路徑的能力。
– **獎勵模型的重要性**:PPM的步驟級評估在高準確率的實現中扮演了關鍵角色,強調了在系統2推理中密集反饋信號的價值。

結論

微軟的rStar-Math突顯了小型語言模型在解決複雜數學推理任務中的潛力。通過結合代碼增強合成、創新獎勵建模和迭代自我演化,該框架實現了卓越的準確性和可靠性。rStar-Math在MATH數據集上達到90.0%的準確率,並在AIME競賽中表現強勁,證明了更小、更高效的模型也能取得競爭性成果。

這一進展不僅推動了AI能力的邊界,還使得複雜的推理模型變得更加可獲得。隨著rStar-Math的發展,其潛在應用可能超越數學,延伸至科學研究和軟件開發等領域,為應對現實世界挑戰鋪平了道路。

在這篇文章中,微軟的創新無疑為AI領域帶來了一股新的活力。這不僅是技術上的突破,更是對AI如何在教育和專業領域中發揮實際應用的一次深刻反思。隨著技術的進步,未來我們或許能看到這些模型在更廣泛的應用場景中發揮作用,這將改變我們對AI能力的認知。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Certainly! Here’s an enhanced, detailed, and artistic version of your prompt:

A charming and elegant cat sitting gracefully on a Parisian balcony, overlooking the romantic cityscape of Paris at sunset. The cat’s fur is soft and glossy, perhaps a classic tabby or a sleek black cat, with expressive, intelligent eyes. Delicate wrought-iron railings surround the balcony, adorned with blooming flower boxes of vibrant geraniums and lavender. In the distance, the Eiffel Tower rises majestically above the rooftops, bathed in warm golden and pink light. The artist’s style is a blend of impressionism and realism, capturing intricate city details—cobblestone streets, classic Parisian architecture, and atmospheric lighting. The mood is dreamy, whimsical, and full of European charm, evoking a sense of wonder and adventure. add hello kitty Create an image that captures a person working on a laptop while sitting on a wooden beach chair on a sandy beach.
Here are some key details:
Subject: A man uploaded photo wearing a light-colored, long-sleeved shirt open botten (possibly linen or a light denim), dark shorts. He is focused intently on the screen and keyboard of his silver laptop.
Setting: The scene is set on a beach during sunset or sunrise, indicated by the warm, golden light and the long shadows. There is a palm tree towering over the person, and its fronds are visible against the bright sky. The ocean is in the background.
Atmosphere: The overall mood is one of a "digital nomad" or someone enjoying the flexibility of working remotely in a beautiful, relaxed, and warm location. The lighting creates a very aesthetic and aspirational feel.
Foreground Detail: To the left of the chair, there's a wooden crate or small table where a portion of a coconut appears to be resting.
The photo effectively contrasts the intensity of work with the serene,

📣 即刻用 Google Workspace|唔使vpn都能享用 Google AI Pro

即使你只係一個人,都可以透過 Google Workspace 使用 官方Gemini AI Pro(原價 HK$160), 而在 Google Workspace 只要 HK$131 / 月

🔓 14 天免費試用
🔖 用呢條連結申請再有 額外 9 折
🇭🇰 香港可直接付款(香港信用卡)
🛡️ 不用 VPN,立即開用
🤖 可用 最新最紅Gemini 3 Pro & Nano Banana Pro
👉 立即登記 14 天免費試用 + 額外 9 折