微軟的 rStar-Math 技術展示小型語言模型的潛力
微軟最近在小型語言模型(SLMs)方面取得了突破,推出了一種名為 rStar-Math 的新推理技術。這項技術提升了 SLMs 的能力,使其能夠與 OpenAI 的 o1 推理模型競爭,甚至超越其數學推理能力,而無需依賴更高級模型的提煉。
根據發表在 arXiv.org 的研究論文:
“rStar-Math 通過運用蒙特卡羅樹搜尋(MCTS)來實現深度思考,讓數學策略 SLM 在測試期間進行基於 SLM 的過程獎勵模型的搜索。”
透過 MCTS,rStar-Math 能夠逐步分析複雜的任務和查詢,這使得 SLMs 更容易解決數學問題。此外,研究人員進一步要求模型展示其思考過程,包括自然語言描述和 Python 代碼。
這項技術具有三項創新,旨在減輕 SLM 訓練中存在的問題,包括:
1. 一種新穎的代碼增強 CoT 數據合成方法,通過進行廣泛的 MCTS 展開來生成逐步驗證的推理軌跡,用於訓練政策 SLM。
2. 一種新穎的過程獎勵模型訓練方法,避免幼稚的逐步得分標註,從而產生更有效的過程偏好模型(PPM)。
3. 一種自我進化的配方,政策 SLM 和 PPM 從零開始構建並進行迭代進化,以提升推理能力。
研究論文進一步詳細介紹了四輪自我進化的過程,生成了數百萬個合成解決方案,涵蓋 747,000 道數學題目,rStar-Math 將數學推理提升至最先進的水平。根據共享的基準測試,該技術將 Qwen2.5-Math-7B 的準確率從 58.8% 提升至 90.0%,Phi3-mini-3.8B 從 41.4% 提升至 86.4%。有趣的是,這使得 SMLs 在數學推理方面超越了 OpenAI 的 o1 推理模型,分別提高了 +4.5% 和 +0.9%。最終,該技術解決了 3.3% 的問題,位居美國邀請數學考試(AIME)高中競爭者的前 20% 之內。
Hugging Face 強調研究人員計劃在 GitHub 上發布 rStar-Math。然而,論文的研究人員李琳雅(Li Lyna Zhang)指出,該代碼“仍在開源發布的審查過程中”(通過 Venture Beat)。她補充道:“目前倉庫仍然是私有的,請繼續關注!”
微軟的創新與未來展望
微軟最近推出的 Phi-3 Mini 是一款輕量級的 AI 模型,承諾提供與 GPT-3.5 相似的能力,儘管其體積較小。它使用的數據比 GPT-4 或其他大型語言模型(LLMs)少,但其表現卻超過了像 Llama 2 這樣的更大模型。
這項革命性的技術顯示出「更大並不總是更好」,它有潛力在效率和性能方面帶來改變。這也回應了人們對於運行下一代 AI 模型所需的龐大計算資源的擔憂。
這項研究的結果不僅展示了小型語言模型在數學推理方面的潛力,還可能促進 AI 技術的發展,讓更多企業和開發者能夠在資源有限的情況下,創造出高效的解決方案。未來,這些技術的應用可能會擴展到各種領域,從教育到專業服務,為解決複雜問題提供新的思路和方法。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。