PRefLexOR：AI模型自我迭代，提升推理能力新突破！

zero comment

PRefLexOR：基於偏好的遞歸語言建模框架

我們介紹PRefLexOR（基於偏好的遞歸語言建模），這是一個將偏好優化與強化學習（RL）概念相結合的框架，旨在使模型通過迭代推理改進來自我教學。PRefLexOR的核心是思考標記，這些標記明確標示出模型輸出中的反思推理階段，使模型能夠遞歸地參與多步推理，重新訪問並細化中間步驟，最終生成輸出。PRefLexOR的基礎在於勝算比偏好優化（ORPO），通過優化偏好和非偏好回應之間的對數勝算，模型學會將其推理與人類偏好的決策路徑對齊。直接偏好優化（DPO）的整合進一步提高了模型性能，通過拒絕採樣來微調推理質量，確保細緻的偏好對齊。這種ORPO和DPO之間的混合方法反映了RL的關鍵特徵，模型不斷通過反饋來改善決策和推理。主動學習機制使PRefLexOR能夠在訓練過程中動態生成新任務、推理步驟和被拒絕的答案。這一自適應過程使模型能夠通過實時反饋和遞歸處理不斷自我教學，持續改進。

我們的方法與傳統方法的不同之處在於不依賴於預先生成的數據集；相反，它動態生成新任務、推理步驟和反饋，讓模型能夠實時適應和改進。思考標記框架中的遞歸優化引入了迭代反饋循環，模型在這一過程中細化推理，類似於RL中的政策精煉，實現更深層次的連貫性、一致性和適應性。通過反饋驅動的學習遞歸優化推理，PRefLexOR在處理複雜任務的能力上達到了顯著的靈活性，自主學習和發展其認知能力。這一框架推進了認知對齊領域，顯示出模型可以迭代地自我教學，以更深刻和反思的方式進行推理，類似於基於RL的自我改善系統，能夠解決開放域問題，並具有優越的推理深度和邏輯性。我們的實現簡單明了，可以輕鬆集成到任何現有的預訓練大型語言模型（LLM）中。該方法在材料設計應用中得到展示，通過生成問題並使用檢索增強生成（RAG）從整個語料庫中檢索上下文相關數據，建立一個動態知識圖譜，促進複雜節點之間的遞歸推理。

圖1：生成材料信息學的工作流程和設計原則

面板a：將信息轉化為知識和可行結果的過程。每個單獨的信息片段（左側）被綜合成一個互聯知識的網絡，導致知情決策和創新設計（右側）。面板b：傳統的材料科學方法依賴於數據驅動模型、偏微分方程（PDE）和實驗結果，專注於單步預測。面板c：與此相對，基於PRefLexOR框架的生成材料信息學模型通過明確納入反復推理和上下文理解來使用“思考”和“反思”，允許更複雜的多步預測。這一方法從單次推斷步驟擴展，包含多種數據和回應的方式，整合現實世界的反饋和物理，並利用自我評估和自我學習。利用強化學習（RL）原則，原則的發現或特定任務的解決進一步受到生物範式的啟發，使用生物啟發的神經網絡設計。這些先進方法支持材料預測的持續改進，使設計更加靈活和智能。

圖2：PRefLexOR遞歸推理算法

這是一種利用經過微調的推理模型和通用評論模型生成、細化和選擇性整合回應的迭代方法。該過程包括生成初始回應、提取反思、改善思考過程，並基於細化思考創建新回應，並可選擇性地進行最終整合步驟。該算法依賴於提取思考過程（用…表示）和反思過程（用…表示）。特殊標記的使用使我們能夠輕鬆構建這種代理建模，因為它促進了推理的暫停、策略的改進和重新生成改進的答案。生成的回應可以在最終狀態下使用，或者整合到顯示科學過程中非常豐富的面向的綜合回應中。

這一框架的創新之處在於它不僅能夠提高模型的推理能力，還能夠在材料設計的具體應用中展示出其潛力。這不僅是技術上的突破，更是對於如何利用AI進行創新設計的一次重新思考。PRefLexOR的出現，可能會改變我們對於人工智能在科學研究中角色的理解，尤其是在材料科學這樣需要深度推理和複雜決策的領域。

這一框架的推廣，無疑會促進交叉學科的合作和知識的共享，讓更多領域的專家能夠共同探討和解決複雜的問題。未來，隨著AI技術的進一步發展，我們有理由相信，PRefLexOR將會成為許多新興技術的基礎，推動各行各業的創新和進步。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。