自我獎勵推理在大型語言模型中的應用:增強數學推理的自主錯誤檢測與修正
大型語言模型(LLMs)在數學和編程等領域表現出強大的推理能力,像是ChatGPT、Claude和Gemini等模型也因此受到廣泛關注。GPT-4的發布進一步激發了人們對於通過改進推理技術來增強推理能力的興趣。在這個領域中,一個主要挑戰是使LLMs能夠檢測和修正其輸出中的錯誤,這一過程被稱為自我修正。雖然模型可以利用外部真實獎勵信號來細化回應,但這種方法引入了計算負擔,因為在推理過程中需要運行多個模型。研究表明,即使獎勵反饋源自代理模型,準確性仍然可以提高。然而,當沒有外部指導時,當前的LLMs僅根據內在推理來自我修正仍然面臨困難。最近的努力探索了將LLMs作為評估者的可能性,這些模型通過遵循指令的機制生成獎勵信號,而不是依賴預訓練的獎勵函數。
有關自我獎勵對齊的相關研究探討了如何在單一的LLM內整合回應生成與評估的方法。迭代微調方法使模型能夠標記其輸出,提供學習信號以驅動自我改進。自我修正的研究顯示,儘管教師輔助訓練增強了對話任務中的反思,但在缺乏額外監督的情況下,內在的自我修正對於推理仍然不可靠。大多數先前的工作依賴外部獎勵模型來決定何時應進行修正,這導致了推理成本的增加。基於規則的強化學習也被探索作為替代方案,最近的進展顯示某些預訓練模型自然展現出自我修正行為。然而,將這些結果復制到不同架構中仍然具有挑戰性,因為性能的提升往往與專有的訓練數據和專門的模型設計相關。
來自伊利諾伊大學厄本那-香檳分校和馬里蘭大學帕克分校的研究人員探索了LLMs中的自我獎勵推理,使它們能夠生成推理步驟、評估其正確性並在沒有外部反饋的情況下細化回應。他們的兩階段框架首先使用順序拒絕採樣構建長的思考鏈(CoT)軌跡,這些軌跡嵌入了自我獎勵和自我修正行為。對這些數據進行微調幫助模型學習這些模式,並通過基於規則的信號進一步改進。對Llama-3和Qwen-2.5的實驗顯示,這種方法增強了自我修正能力,並達到了依賴外部獎勵的模型的性能水平。
自我獎勵推理在語言模型中被框架為多回合的馬爾可夫決策過程(MDP)。模型生成初始回應並評估其答案。如果被認為是正確的,則停止;否則,則反覆細化回應。這種方法遵循兩階段的訓練框架:自我獎勵指令微調(IFT)和強化學習(RL)。IFT階段涉及順序拒絕採樣以收集推理軌跡,而RL則使用KL正則化訓練來優化正確性評估。與傳統的強化學習人類反饋(RLHF)不同,這種方法使用神諭獎勵來防止獎勵操縱。實驗證明,通過結構化的自我修正和驗證過程,該方法在提高數學推理準確性方面的有效性。
該研究使用MATH500、OlympiadBench和Minerva Math等數據集評估數學推理模型,通過初始和最終準確性、自我修正改進和獎勵模型準確性等指標來評估性能。基線方法如STaR/RAFT和內在自我修正的效果有限,往往導致不必要的修改和準確性下降。相比之下,自我獎勵推理模型始終能夠提高準確性和修正效率,同時減少錯誤修改。對自生成修正的微調顯著提高了模型在不過度修正的情況下細化錯誤的能力。這一方法通過整合自我獎勵信號超越了傳統方法,進一步提升了數學推理能力的可靠性。
總結來說,這項研究引入了一個自我獎勵推理框架,旨在改善LLMs的自我修正和計算效率。通過整合自我獎勵IFT和強化學習,模型能夠利用過去的嘗試和內部獎勵信號來檢測和修正錯誤。對Llama-3和Qwen-2.5的實驗顯示出優於內在自我修正的性能。未來的改進包括解決獎勵模型準確性問題、加強後期訓練階段的強化學習,以及探索多回合強化學習方法。一個兩階段的方法——順序拒絕採樣推理模式和基於規則的信號強化學習——使得在沒有外部反饋的情況下逐步修正成為可能,為數學推理提供了一個可擴展且高效的解決方案。
這項研究的成果顯示出在數學推理領域,如何通過自我獎勵機制來提升模型的推理能力,這對於未來的人工智慧發展至關重要。隨著技術的進步,如何有效地利用內部信號進行自我修正將成為提升LLMs性能的關鍵因素。這不僅是對當前技術的一次突破,也可能對未來的AI應用場景產生深遠影響。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。