DeepSeek-AI 推出 DeepSeek-Prover-V2:開源大型語言模型,專注形式定理證明,結合子目標分解與強化學習
形式數學推理已成為人工智能的一個專門分支,要求嚴格的邏輯一致性。與允許直覺和鬆散啟發式解法的非正式問題解決不同,形式定理證明要求每一步都必須完整描述、精確且可被計算機系統驗證。像 Lean、Coq 和 Isabelle 這些證明助手,提供了構建形式證明的結構框架,操作時必須保證邏輯嚴謹,不能有任何遺漏、近似或未明說的假設。這對 AI 系統尤其是大型語言模型(LLM)提出了巨大挑戰,因為它們擅長生成連貫的自然語言回答,但通常缺乏產生可驗證形式證明的嚴謹性。然而,將 AI 在非正式推理上的流暢性與形式驗證的結構嚴謹結合的需求,催生了語言模型與形式邏輯自動化界面的新創新。
目前語言模型無法跨越非正式與形式推理的鴻溝,成為一大瓶頸。這些模型善於生成類人解釋和自然語言數學問題的解答,但這類推理本質上是非正式的,缺乏形式邏輯系統所需的結構精確性。人類能直覺地跳躍推理步驟,但證明助手需要明確且無歧義的完整步驟序列。挑戰在於引導 AI 從其非正式且直觀的內部推理,產出邏輯連貫的形式化結果。這在處理如數論或幾何等高級定理時尤為複雜,因為精確性至關重要。
近年來的嘗試包括先讓模型生成自然語言的證明草稿,然後手動或半自動轉換成形式證明步驟。一種常見策略是將複雜定理分解為多個子目標,每個子目標為獨立處理的小引理,最後合併成完整證明。像“Draft, Sketch, and Prove”框架就利用語言模型產生證明大綱,再轉為形式語言。另一方法採用層級強化學習,將複雜數學問題分解為多層簡化問題。然而,這些模型往往難以在 Lean 或 Coq 環境中產生完全可驗證的輸出,且訓練數據有限,證明嘗試經常失敗,無法提供有效學習信號。
DeepSeek-AI 的研究團隊推出了 DeepSeek-Prover-V2,利用子目標分解與強化學習來生成形式數學證明。其核心方法是用 DeepSeek-V3 將複雜定理分解為可管理的子目標,每個子目標轉譯為 Lean 4 的“have”語句,並用佔位符標記尚未完成的證明。這些子目標交由一個 7 億參數大小的證明模型逐步完成。當所有步驟解決後,整合成完整的 Lean 證明,並與 DeepSeek-V3 生成的原始自然語言推理配對,形成豐富的冷啟動強化學習數據集。值得注意的是,模型訓練完全基於合成數據,沒有使用人工標註的證明步驟。
冷啟動流程首先由 DeepSeek-V3 生成自然語言證明草稿,再轉化為帶有未解部分的形式定理語句。創新之處在於利用 7B 證明器遞歸解決各子目標,減少計算成本同時保持形式嚴謹。研究團隊設計了課程學習框架,逐步增加訓練任務難度,並實施兩種子目標定理:一種將前置子目標作為前提,另一種則獨立處理。這種雙重結構嵌入專家迭代階段,讓模型在逐漸挑戰更高難度問題時持續學習。訓練中還引入基於一致性的獎勵系統,確保所有分解引理都正確納入最終形式證明中。
在 MiniF2F-test 基準測試中,該模型以高採樣率(Pass@8192)達到 88.9% 通過率,優於 Kimina-Prover 的 82.0% 和 Geodel-Prover 的 64.7%。在 PutnamBench(包含挑戰性數學題目的平台)中,模型成功解決了 658 題中的 49 題。新推出的 ProverBench 數據集涵蓋 325 個形式化問題,模型在 2024 和 2025 年的美國邀請數學競賽(AIME)中解決了 15 題中的 6 題。這些基準證明了模型在多種形式推理任務上的泛化能力。與採用自然語言推理的 DeepSeek-V3 相比,DeepSeek-Prover-V2 不但在形式可驗證性上有保障,且解題數量相當,展現出優異的競爭力。
DeepSeek-Prover-V2 研究的幾大亮點:
– MiniF2F-test 通過率達 88.9%(Pass@8192),為目前形式推理模型中最高紀錄。
– 成功解決 PutnamBench 658 題中的 49 題,涵蓋高階數學挑戰。
– 在 AIME 2024-2025 比賽中解決 15 題中的 6 題,展現實戰應用潛力。
– 推出新基準 ProverBench,包含 325 個形式化問題,用於評估形式推理模型。
– 結合 DeepSeek-V3 和 7B 證明器,實現自然語言證明草稿與形式證明構建的統一流程。
– 採用兩種子目標分解策略(有依賴前提與無依賴前提),並透過課程學習結構化訓練。
– 利用基於一致性的強化學習獎勵,顯著提升證明準確度,確保草稿與解答結構對齊。
– 全訓練策略基於合成冷啟動數據,免除對人工標註證明的依賴。
—
評論與啟示:
DeepSeek-Prover-V2 的推出,標誌著大型語言模型在形式數學推理領域邁出重要一步。它成功將自然語言的靈活性與形式證明的嚴謹性結合,透過子目標分解和強化學習的策略,克服了過去模型在精確性和可驗證性上的短板。這種方法不僅提高了證明成功率,也展示了 AI 在數學自動化證明上的廣泛應用潛力,對學術研究和教育均有深遠影響。
然而,仍有挑戰值得關注。首先,模型完全依賴合成數據,未來如何引入高質量人工標註數據或真實世界數學證明,可能進一步提升模型的泛化能力和穩定性。其次,儘管在多個基準表現優異,模型對極端複雜或尚未形式化的數學領域仍面臨挑戰。最後,形式證明的可解釋性和人機協作流程的優化,也是推廣應用的關鍵。
未來研究或可探討如何結合更多多模態數據(如圖形、結構化數據)提升模型理解力,以及如何與人類數學家更緊密協同,實現真正智能的數學助手。此外,這種技術在其他嚴謹推理領域(如法律、程式驗證)同樣具有巨大應用前景。DeepSeek-Prover-V2 不只是數學 AI 的里程碑,也為跨領域智能推理樹立了新標杆。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。