清華大學AI新法T1:強化學習探索,提升推理規模

Ai

這篇來自清華大學的AI論文提出了T1方法,以擴展強化學習,鼓勵探索並理解推理擴展

大型語言模型(LLMs)專門為數學、編程及一般自主代理而開發,但在測試時的推理能力仍需改善。現有的各種方法包括根據提示生成推理步驟或利用抽樣和訓練模型來生成相同的步驟。強化學習更有可能提供自我探索的機會及從反饋中學習的能力,然而它們在複雜推理上的影響仍然有限。在測試時擴展LLMs仍然是一個問題,因為增加的計算努力不一定會轉化為更好的模型。深度推理和更長的回答可能有助於提高性能,但有效實現這一點一直是挑戰。

目前改善語言模型推理的方法主要集中在模仿學習上,模型複製使用提示生成的推理步驟或拒絕抽樣。基於推理相關數據的預訓練和使用強化學習的微調有助於提高理解,但對於複雜推理來說,這些方法的擴展性不佳。後期訓練技術如生成問題-答案對和添加驗證者提高了準確性,但過於依賴外部監督。通過更多數據和更大模型擴展語言模型雖然能提高性能,但基於強化學習的擴展和測試推理仍然無效。重複抽樣增加了計算成本,但未能提升推理能力,使當前技術在更深層推理和長篇回答方面顯得低效。

為了解決這些問題,清華大學的研究人員和知識樹AI提出了T1方法。T1通過擴大探索範圍和改善推理擴展來加強強化學習。T1首先基於鏈式思維數據進行語言模型的訓練,結合試錯和自我驗證,這在現有方法的訓練階段通常是被否定的。因此,模型能找到正確答案並理解達成答案的過程。與之前專注於獲得正確解決方案的方法不同,T1通過對每個提示生成多個回答並在強化學習之前分析錯誤來鼓勵多樣化的推理路徑。這一框架以兩種方式增強了強化學習訓練:首先,通過過度抽樣來增加回答的多樣性;其次,通過基於熵的輔助損失來調節訓練的穩定性。T1不是維持固定的參考模型,而是通過指數移動平均動態更新參考模型,這樣訓練不會變得僵化。T1對冗長、過長或低質量的回答施加負獎勵,保持模型在有意義的推理上不偏離方向。

研究人員使用開放模型如GLM-4-9B和Qwen2.5-14B/32B構建了T1,專注於通過強化學習進行數學推理。他們從MATH-train和NuminaMath中提取訓練數據,篩選出30,000個實例以去除噪音數據。監督微調(SFT)使用餘弦衰減調度,強化學習訓練則涉及基於正確性的獎勵的策略梯度下降。在評估中,T1在數學基準測試中超越了基線模型,Qwen2.5-32B在SFT版本上顯示出10-20%的提升。增加抽樣回應數量(K)提升了探索和泛化,特別是對於GPQA。抽樣溫度設置為1.2穩定了訓練,而過高或過低的值則導致性能問題。在強化學習訓練期間施加懲罰以控制回答長度並提高一致性。結果顯示,在推理擴展方面,性能顯著提升,更多的計算資源帶來了更好的結果。

結論,所提出的T1方法通過擴展強化學習的探索和穩定性來增強大型語言模型。懲罰和過度抽樣可以平滑瓶頸樣本的影響。該方法顯示出強勁的性能和有前途的擴展行為。推理擴展的測量方法表明,進一步的強化學習訓練提高了推理準確性和擴展趨勢。T1在挑戰性基準測試中超越了最先進的模型,克服了目前推理方法的弱點。這項工作可以作為進一步研究的起點,提供一個推進推理能力和擴展大型語言模型的框架。

在這個快速發展的AI領域,T1方法的提出無疑為強化學習和語言模型的結合提供了新的思路。這不僅有助於推進研究,還可能在實際應用中改變我們與AI互動的方式。未來的挑戰在於如何將這些理論應用到更廣泛的場景中,並確保這些模型的穩定性和可靠性,以滿足日益增長的需求。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon