DeepSeek-AI突破:AI自動證定理,數學不再難?

Ai




DeepSeek-AI 推出 DeepSeek-Prover-V2:開源大型語言模型,專注形式定理證明,結合子目標分解與強化學習

形式數學推理已成為人工智能的一個專門分支,要求嚴格的邏輯一致性。與允許直覺和鬆散啟發式解法的非正式問題解決不同,形式定理證明要求每一步都必須完整描述、精確且可被計算機系統驗證。像 Lean、Coq 和 Isabelle 這些證明助手,提供了構建形式證明的結構框架,操作時必須保證邏輯嚴謹,不能有任何遺漏、近似或未明說的假設。這對 AI 系統尤其是大型語言模型(LLM)提出了巨大挑戰,因為它們擅長生成連貫的自然語言回答,但通常缺乏產生可驗證形式證明的嚴謹性。然而,將 AI 在非正式推理上的流暢性與形式驗證的結構嚴謹結合的需求,催生了語言模型與形式邏輯自動化界面的新創新。

目前語言模型無法跨越非正式與形式推理的鴻溝,成為一大瓶頸。這些模型善於生成類人解釋和自然語言數學問題的解答,但這類推理本質上是非正式的,缺乏形式邏輯系統所需的結構精確性。人類能直覺地跳躍推理步驟,但證明助手需要明確且無歧義的完整步驟序列。挑戰在於引導 AI 從其非正式且直觀的內部推理,產出邏輯連貫的形式化結果。這在處理如數論或幾何等高級定理時尤為複雜,因為精確性至關重要。

近年來的嘗試包括先讓模型生成自然語言的證明草稿,然後手動或半自動轉換成形式證明步驟。一種常見策略是將複雜定理分解為多個子目標,每個子目標為獨立處理的小引理,最後合併成完整證明。像“Draft, Sketch, and Prove”框架就利用語言模型產生證明大綱,再轉為形式語言。另一方法採用層級強化學習,將複雜數學問題分解為多層簡化問題。然而,這些模型往往難以在 Lean 或 Coq 環境中產生完全可驗證的輸出,且訓練數據有限,證明嘗試經常失敗,無法提供有效學習信號。

DeepSeek-AI 的研究團隊推出了 DeepSeek-Prover-V2,利用子目標分解與強化學習來生成形式數學證明。其核心方法是用 DeepSeek-V3 將複雜定理分解為可管理的子目標,每個子目標轉譯為 Lean 4 的“have”語句,並用佔位符標記尚未完成的證明。這些子目標交由一個 7 億參數大小的證明模型逐步完成。當所有步驟解決後,整合成完整的 Lean 證明,並與 DeepSeek-V3 生成的原始自然語言推理配對,形成豐富的冷啟動強化學習數據集。值得注意的是,模型訓練完全基於合成數據,沒有使用人工標註的證明步驟。

冷啟動流程首先由 DeepSeek-V3 生成自然語言證明草稿,再轉化為帶有未解部分的形式定理語句。創新之處在於利用 7B 證明器遞歸解決各子目標,減少計算成本同時保持形式嚴謹。研究團隊設計了課程學習框架,逐步增加訓練任務難度,並實施兩種子目標定理:一種將前置子目標作為前提,另一種則獨立處理。這種雙重結構嵌入專家迭代階段,讓模型在逐漸挑戰更高難度問題時持續學習。訓練中還引入基於一致性的獎勵系統,確保所有分解引理都正確納入最終形式證明中。

在 MiniF2F-test 基準測試中,該模型以高採樣率(Pass@8192)達到 88.9% 通過率,優於 Kimina-Prover 的 82.0% 和 Geodel-Prover 的 64.7%。在 PutnamBench(包含挑戰性數學題目的平台)中,模型成功解決了 658 題中的 49 題。新推出的 ProverBench 數據集涵蓋 325 個形式化問題,模型在 2024 和 2025 年的美國邀請數學競賽(AIME)中解決了 15 題中的 6 題。這些基準證明了模型在多種形式推理任務上的泛化能力。與採用自然語言推理的 DeepSeek-V3 相比,DeepSeek-Prover-V2 不但在形式可驗證性上有保障,且解題數量相當,展現出優異的競爭力。

DeepSeek-Prover-V2 研究的幾大亮點:

– MiniF2F-test 通過率達 88.9%(Pass@8192),為目前形式推理模型中最高紀錄。
– 成功解決 PutnamBench 658 題中的 49 題,涵蓋高階數學挑戰。
– 在 AIME 2024-2025 比賽中解決 15 題中的 6 題,展現實戰應用潛力。
– 推出新基準 ProverBench,包含 325 個形式化問題,用於評估形式推理模型。
– 結合 DeepSeek-V3 和 7B 證明器,實現自然語言證明草稿與形式證明構建的統一流程。
– 採用兩種子目標分解策略(有依賴前提與無依賴前提),並透過課程學習結構化訓練。
– 利用基於一致性的強化學習獎勵,顯著提升證明準確度,確保草稿與解答結構對齊。
– 全訓練策略基於合成冷啟動數據,免除對人工標註證明的依賴。

評論與啟示:

DeepSeek-Prover-V2 的推出,標誌著大型語言模型在形式數學推理領域邁出重要一步。它成功將自然語言的靈活性與形式證明的嚴謹性結合,透過子目標分解和強化學習的策略,克服了過去模型在精確性和可驗證性上的短板。這種方法不僅提高了證明成功率,也展示了 AI 在數學自動化證明上的廣泛應用潛力,對學術研究和教育均有深遠影響。

然而,仍有挑戰值得關注。首先,模型完全依賴合成數據,未來如何引入高質量人工標註數據或真實世界數學證明,可能進一步提升模型的泛化能力和穩定性。其次,儘管在多個基準表現優異,模型對極端複雜或尚未形式化的數學領域仍面臨挑戰。最後,形式證明的可解釋性和人機協作流程的優化,也是推廣應用的關鍵。

未來研究或可探討如何結合更多多模態數據(如圖形、結構化數據)提升模型理解力,以及如何與人類數學家更緊密協同,實現真正智能的數學助手。此外,這種技術在其他嚴謹推理領域(如法律、程式驗證)同樣具有巨大應用前景。DeepSeek-Prover-V2 不只是數學 AI 的里程碑,也為跨領域智能推理樹立了新標杆。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Create a hyper-realistic 8K close-up body portrait of a female model, using the uploaded photo as the exact facial reference. Maintain 100% accuracy of the facial features — do not alter or modify any aspect of the face. Render the skin texture, lighting, and overall composition with photo-realistic detail, ensuring lifelike color tones and natural depth of field. A man with his original hair is sitting casually on a white cube, smiling warmly at the camera. He is wearing a cream-colored cable-knit sweater, blue jeans, and brown loafers. His legs are crossed, with one hand resting on his knee.
The background reveals a cozy and festive living room. A large, beautifully decorated Christmas tree with numerous warm lights and gold ornaments stands prominently behind him. Several wrapped gift boxes are visible at the base of the tree. To his left, another smaller decorated Christmas tree and a wreath on the wall further enhance the holiday atmosphere. The lighting is soft and inviting, creating a warm and welcoming scene. Create a hyper-realistic 8K close-up body portrait of a male model, using the uploaded photo as the exact facial reference. Maintain 100% accuracy of the facial features — do not alter or modify any aspect of the face. Render the skin texture, lighting, and overall composition with photo-realistic detail, ensuring lifelike color tones and natural depth of field. A man with his original hairstyle, he is standing confidently, hands in his pockets, looking directly at the camera. He is wearing a simple, light beige crew-neck sweater and dark trousers.
He is positioned between two decorated Christmas trees. The tree to his left is adorned with gold and white ornaments and warm lights, with wrapped red and gold gifts visible at its base. The tree to his right is decorated with red and gold ornaments. The background shows a warm, indoor setting, likely a home, with soft lighting, creating a festive and inviting atmosphere. The overall impression is one of relaxed holiday cheer. 一隻在香港茶餐廳喝奶茶的貓