Patronus AI 推出革命性「生成模擬器」,徹底改變 AI 代理學習複雜任務方式
由 Lightspeed Venture Partners 和 Datadog 等投資者注資 2,000 萬美元支持的人工智能評估初創公司 Patronus AI,於本周二發佈了一種全新訓練架構,聲稱這將帶來 AI 代理學習複雜任務的根本變革。
這項被稱為「生成模擬器」(Generative Simulators)的技術,能夠創建自適應模擬環境,實時不斷生成新的挑戰、動態更新規則,並評估代理的學習表現。這種方法突破了業界長期以來依賴的靜態基準測試,因為這些傳統測試無法真實反映 AI 在實際應用中的表現。
Patronus AI 執行長兼共同創辦人 Anand Kannappan 在接受專訪時表示:「傳統基準測試只測量單一能力,卻忽略了工作中常見的中斷、情境切換和多層決策。想要讓 AI 代理達到人類水平,必須讓它們透過動態經驗和持續反饋學習。」
靜態基準測試失靈,生成模擬器提供新方向
Patronus AI 指出,業界現有的評估方式如同標準化考試,只在固定時間點測量特定能力,難以捕捉真實工作中複雜且不可預測的情況。新架構則顛覆這種模式,系統會即時生成任務、環境條件及監督流程,並根據代理行為動態調整。
共同創辦人兼技術長 Rebecca Qian 解釋:「過去一年,我們看到業界從靜態基準轉向更具互動性的學習環境。這受益於模型開發者在強化學習、後訓練與持續學習方面的創新,訓練和評估的界線正在模糊,基準測試已變成動態環境。」
此技術基於強化學習(Reinforcement Learning,RL),讓 AI 透過試錯獲得獎勵或懲罰,進而學習做出最佳決策。雖然 RL 有助提升代理能力,但一般需大量代碼重寫,阻礙普及。Patronus AI 則推出「開放式遞歸自我改進」(Open Recursive Self-Improvement,ORSI)概念,讓代理無需重訓即可持續透過互動和反饋提升自己,成為持續學習的關鍵基礎設施。
「黃金區」課程調整器:自適應訓練找到最佳難度
生成模擬器核心在於「課程調整器」(curriculum adjuster),它會分析代理行為,動態調整訓練場景的難度和性質,靈感來自優秀教師會根據學生表現調整教學內容。
Qian 形容:「這就像師生互動,我們訓練模型的同時,教授會不斷調整課程。」
Kannappan 指出,關鍵在於找到訓練資料的「黃金區」,避免太簡單或太難,確保模型真正能夠學習。初步結果顯示,在 Patronus AI 環境中訓練,代理在軟件工程、客服及財務分析等實際任務的完成率提升了 10% 至 20%。
打擊 AI「作弊」現象:動態環境防止獎勵漏洞
強化學習中一大難題是「獎勵作弊」(reward hacking),即系統利用訓練環境漏洞獲得獎勵,而非真正解決問題。生成模擬器透過不斷變動的訓練環境,避免代理「作弊」。
Qian 解釋:「獎勵作弊源自靜態系統,就像學生作弊考試。但我們持續演化環境,可針對需要改進的部分調整。靜態基準是固定目標,生成模擬器是移動目標。」
Patronus AI 營收激增 15 倍,企業對代理訓練需求大增
Patronus AI 將生成模擬器打造為新產品線「RL 環境」(Reinforcement Learning Environments),為基礎模型實驗室及專業企業提供專屬代理訓練平台。Kannappan 表示:「今年營收增長了 15 倍,主要來自我們開發的高質量環境,證明能被最先進模型有效學習。」
他未透露具體營收數字,但強調新產品讓公司「向上游市場拓展,銷售對象和層級提升」。目前平台已被多家《財富》500 強企業及領先 AI 公司採用。
為何 OpenAI、Anthropic、Google 不自行打造訓練環境?
Patronus AI 面對的核心問題是,為何資金雄厚的頂尖實驗室如 OpenAI、Anthropic 和 Google DeepMind,會選擇授權第三方訓練基礎設施,而非自行開發。
Kannappan 認為,雖然這些公司投入大量資源打造環境,但面對眾多不同領域的專業訓練需求,第三方提供商有天然優勢。
他說:「他們想在程式碼撰寫、工具運用、瀏覽器導航、金融、醫療、能源、教育等多個領域提升代理能力,單一公司難以解決所有問題。」
市場競爭激烈。微軟推出了開源框架 Agent Lightning,讓強化學習適用於任何代理而無需重寫代碼;NVIDIA 的 NeMo Gym 提供模組化 RL 基礎設施;Meta 於去年 11 月發表 DreamGym,動態調整任務難度的 RL 環境框架。
「環境是新石油」:Patronus AI 對 AI 訓練未來的豪賭
展望未來,Patronus AI 將使命定位為「環境化全球數據」——將人類工作流程轉化為 AI 可學習的結構化系統。
Kannappan 表示:「我們認為所有事物都應該是環境,內部戲稱環境是新石油。強化學習只是訓練方法之一,但環境結構才是核心。」
Qian 形容這是一個全新研究領域,靈感來自早期機器人與具身代理研究,這是幾十年的夢想,現在才因模型能力提升而成真。
公司於 2023 年 9 月成立,最初專注於評估,協助企業發現 AI 輸出中的幻覺和安全問題,如今已擴展至訓練本身。Patronus AI 認為,評估與訓練的界線正在消失,掌握 AI 代理學習環境的企業將主導未來能力塑造。
Qian 強調:「我們正處於關鍵拐點,現在的作為將影響未來世代的世界。」
至於生成模擬器能否兌現承諾,仍有待觀察。15 倍營收增長顯示企業客戶渴求解決方案,但從微軟到 Meta 等深厚資源的競爭者也在搶攻這一核心問題。過去兩年教會業界一件事:AI 的未來總是提前到來。
—
評論與啟示
Patronus AI 的生成模擬器技術,無疑為 AI 代理的訓練帶來了新思維。傳統靜態基準測試長期以來被視為標準,但其缺乏現實世界的動態性和複雜性,導致 AI 表現與評估結果脫節。Patronus AI 透過動態環境和課程調整,模擬人類學習過程中不斷變化的挑戰,這不僅提升了訓練效率,也更貼近實際應用需求。
「黃金區」的概念極具啟發性,強調訓練資料的難度必須與模型能力匹配,這是過去常被忽視的細節。過於簡單或過於困難的任務都會阻礙學習,這種自適應策略或許是未來 AI 訓練的必備元素。
然而,這種動態環境的設計與維護成本不菲,且如何確保環境不被代理「作弊」仍是挑戰。Patronus AI 透過環境持續演化來防範「獎勵作弊」,但這是否能完全杜絕漏洞,還需時間驗證。
從產業角度看,Patronus AI 的成功反映出即使是巨頭如 OpenAI 和 Google,也無法獨攬所有領域的專業訓練需求。專業化、模組化的訓練環境市場呼之欲出,第三方訓練平台將成為推動 AI 多元發展的重要推手。
最後,「環境是新石油」的比喻值得深思。數據和模型固然重要,但如何設計合適的學習環境,讓 AI 能真正「學會」應用,才是決定未來 AI 成敗的關鍵。Patronus AI 的願景宏大,但也提醒業界,AI 訓練不僅是技術問題,更是系統設計與生態建構的挑戰。未來誰能掌握這些「環境」,誰就能在 AI 革命中占據先機。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。