微軟研究發佈OptiMind:一個2,000億參數模型,將自然語言轉化為優化求解器可執行的數學模型
微軟研究團隊最新推出了OptiMind,一套基於人工智能的系統,能將自然語言描述的複雜決策問題,自動轉換成數學優化模型,供混合整數線性規劃(MILP)求解器執行。這解決了運籌學領域長久以來的一大瓶頸:將業務需求轉化為可行的數學模型,過去通常需要專家花費數天時間建模。
OptiMind是什麼?輸出內容包括什麼?
OptiMind-SFT是一款20億參數的專用混合專家(Mixture of Experts)GPT OSS Transformer模型。每個詞元約啟用36億參數,令推理成本接近中型模型,同時保持高容量。其上下文長度高達128,000詞元,支持長篇規格描述及多步推理。
用戶只需輸入自然語言描述的優化問題,模型即輸出數學公式及可執行的Python程式碼,採用GurobiPy調用Gurobi求解器。生成的程式碼定義決策變數、約束條件與目標函數,執行後會打印最佳目標值及決策結果。
OptiMind充當領域專家與MILP求解器之間的橋樑,生成求解器可用的數學模型,而非取代求解器本身。
架構、訓練配置與數據集
基礎模型為`openai/gpt-oss-20b`,經過清洗優化數據集微調成`microsoft/OptiMind-SFT`。架構為混合專家Transformer,每個詞元只激活部分專家。模型採用MIT許可證開源。
訓練使用8塊NVIDIA B200 GPU,推理與評估則用8塊NVIDIA H100 GPU。微調時間約8小時。日常使用建議配備至少32GB GPU記憶體,如A100、H100或B200。
微調數據集包括精煉版本的OR Instruct和OptMATH Train,測試則用專家驗證且再次清洗的IndustryOR、Mamo Complex和OptMATH基準,這些基準涵蓋了難度較高的數學建模任務,現有模型在原始數據上準確率僅20%至50%。
分類錯誤分析與數據清洗
OptiMind的核心技術之一是結合優化專業知識與大型語言模型訓練。研究團隊將OR-Instruct和OptMATH數據集的問題劃分為53個優化類別,如集合覆蓋、流水線排程、旅行推銷員問題(TSP)等。
對每個類別,團隊用基礎模型生成結果,挑選與真實答案不符的樣本,由優化專家檢視,歸納常見建模錯誤並撰寫錯誤描述與預防提示,涉及正確約束、變數界限或建模技巧,例如TSP的Miller Tucker Zemlin約束。
隨後利用半自動流程,模型根據類別提示重生成解答,通過多數投票提升質量,並剔除不一致樣本。還會檢測缺失參數或模糊描述,重新生成問題描述。最終產出更符合正確數學模型的清洗訓練語料。
推理流程、提示與測試時擴展
推理時,OptiMind採用多階段流程,非單一提示。系統先將測試問題分類至53個優化類別之一,並將該類別的錯誤摘要與提示加入提示中。
模型接著生成推理過程、數學公式與GurobiPy程式碼。若計算資源充足,系統會執行多次生成並用自我一致性(self consistency)投票選出最佳方案。
系統亦支持多輪修正模式:執行生成程式碼,捕捉求解器日誌或錯誤,反饋給模型,讓模型多輪調整公式與程式碼,修正常見錯誤,但會增加延遲。
在優化基準上的量化提升
在清洗後的IndustryOR、Mamo-Complex和OptMATH基準上,OptiMind框架大幅提升解答準確率。微調模型在多個基準的建模準確度提升了20.7%,採用測試時擴展技術(如自我一致性、多輪反饋)則有更進一步的提升。
整體來看,OptiMind不僅超越基礎的gpt-oss-20b模型,也優於其他同規模或更大規模的開源模型,表現可媲美專有的前沿模型如GPT-o4 mini和GPT-5(依照評測設定)。
這些成果依賴於對訓練及測試數據的嚴格清洗。研究團隊指出,原始基準中許多模型錯誤其實源於數據缺失、描述模糊或參考答案錯誤。重新清洗後,固定模型的準確率可從40%-60%提升至70%-90%。
主要結論
1. OptiMind是一款20億參數的混合專家Transformer GPT OSS家族模型,輸入自然語言優化問題,輸出數學模型及可執行的GurobiPy程式碼,每詞元啟用約36億參數,上下文長度高達128,000詞元。
2. 模型基於`openai/gpt-oss-20b`微調,使用清洗優化數據集如OR-Instruct和OptMATH,並在專家驗證的IndustryOR和Mamo Complex基準上評估,聚焦混合整數線性規劃建模。
3. OptiMind結合錯誤分類分析與專家撰寫提示,涵蓋53種優化類別,在數據清洗與推理階段均使用這些提示,有效減少常見建模錯誤。
4. 框架在多個優化基準上的建模準確度提升20.7%,並配合測試時擴展技術達到與大型專有系統競爭的表現。
5. OptiMind-SFT已於Hugging Face(`microsoft/OptiMind-SFT`)及Azure AI Foundry(`microsoft-optimind-sft`)公開,可透過SGLang作為OpenAI相容端點服務,方便整合供應鏈、製造、物流及排程的決策支援流程。
—
評論與洞見:
OptiMind的誕生代表了AI在運籌學及數學優化領域的一大突破。過去,將業務問題翻譯成嚴謹的數學模型一直是專家級且耗時的工作,限制了優化技術的普及與應用。OptiMind則用自然語言直接橋接需求與數學模型,極大降低了使用門檻。
混合專家架構的採用是其高效處理龐大上下文及保持模型容量的關鍵,這對於需要長篇規格及多步推理的優化問題尤其重要。更令人印象深刻的是,團隊結合專家知識進行錯誤分類與提示設計,並應用於數據清洗與推理,這種人機協同的策略有效提升了模型質量與準確度。
此外,模型在多輪反饋和自我一致性機制下的表現,展示了AI系統在處理複雜結構化問題時的自我修正能力,這是未來智能決策支援系統不可或缺的特質。
然而,OptiMind仍依賴高性能GPU硬體,且對於更複雜或多變的現實場景,模型的泛化能力與解釋性仍需長期觀察。未來如何進一步降低硬體門檻、提升模型透明度與可調試性,將是推廣應用的關鍵。
總結來說,OptiMind不僅是技術上的創新,也標誌著AI與傳統運籌學深度融合的趨勢,為企業決策自動化開啟了新篇章。它的開源與商業化部署雙軌並進策略,也有助於形成更廣泛的生態系統,推動整個產業的智能升級。
以上文章由GPT 所翻譯及撰寫。而圖片則由GEMINI根據內容自動生成。