微軟新招「rStar-Math」：細模型數學力挑機OpenAI

zero comment

微軟的 rStar-Math 技術展示小型語言模型的潛力

微軟最近在小型語言模型（SLMs）方面取得了突破，推出了一種名為 rStar-Math 的新推理技術。這項技術提升了 SLMs 的能力，使其能夠與 OpenAI 的 o1 推理模型競爭，甚至超越其數學推理能力，而無需依賴更高級模型的提煉。

根據發表在 arXiv.org 的研究論文：

“rStar-Math 通過運用蒙特卡羅樹搜尋（MCTS）來實現深度思考，讓數學策略 SLM 在測試期間進行基於 SLM 的過程獎勵模型的搜索。”

透過 MCTS，rStar-Math 能夠逐步分析複雜的任務和查詢，這使得 SLMs 更容易解決數學問題。此外，研究人員進一步要求模型展示其思考過程，包括自然語言描述和 Python 代碼。

這項技術具有三項創新，旨在減輕 SLM 訓練中存在的問題，包括：

1. 一種新穎的代碼增強 CoT 數據合成方法，通過進行廣泛的 MCTS 展開來生成逐步驗證的推理軌跡，用於訓練政策 SLM。
2. 一種新穎的過程獎勵模型訓練方法，避免幼稚的逐步得分標註，從而產生更有效的過程偏好模型（PPM）。
3. 一種自我進化的配方，政策 SLM 和 PPM 從零開始構建並進行迭代進化，以提升推理能力。

研究論文進一步詳細介紹了四輪自我進化的過程，生成了數百萬個合成解決方案，涵蓋 747,000 道數學題目，rStar-Math 將數學推理提升至最先進的水平。根據共享的基準測試，該技術將 Qwen2.5-Math-7B 的準確率從 58.8% 提升至 90.0%，Phi3-mini-3.8B 從 41.4% 提升至 86.4%。有趣的是，這使得 SMLs 在數學推理方面超越了 OpenAI 的 o1 推理模型，分別提高了 +4.5% 和 +0.9%。最終，該技術解決了 3.3% 的問題，位居美國邀請數學考試（AIME）高中競爭者的前 20% 之內。

Hugging Face 強調研究人員計劃在 GitHub 上發布 rStar-Math。然而，論文的研究人員李琳雅（Li Lyna Zhang）指出，該代碼“仍在開源發布的審查過程中”（通過 Venture Beat）。她補充道：“目前倉庫仍然是私有的，請繼續關注！”

微軟的創新與未來展望

微軟最近推出的 Phi-3 Mini 是一款輕量級的 AI 模型，承諾提供與 GPT-3.5 相似的能力，儘管其體積較小。它使用的數據比 GPT-4 或其他大型語言模型（LLMs）少，但其表現卻超過了像 Llama 2 這樣的更大模型。

這項革命性的技術顯示出「更大並不總是更好」，它有潛力在效率和性能方面帶來改變。這也回應了人們對於運行下一代 AI 模型所需的龐大計算資源的擔憂。

這項研究的結果不僅展示了小型語言模型在數學推理方面的潛力，還可能促進 AI 技術的發展，讓更多企業和開發者能夠在資源有限的情況下，創造出高效的解決方案。未來，這些技術的應用可能會擴展到各種領域，從教育到專業服務，為解決複雜問題提供新的思路和方法。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

微軟新招「rStar-Math」：細模型數學力挑機OpenAI

chatgpt

Related Articles

輝達CEO警告：華為AI太強，美國政策失誤？

亞洲經濟峰會速遞：最新資訊、招聘、活動一覽！

輝達CEO示警：華為AI威脅美國？