OpenAI正式推出最新大型語言模型系列 GPT-5.2,挑戰AI市場新高峰
傳聞成真!OpenAI於本週四正式宣布推出其最新大型語言模型(LLM)系列——GPT-5.2。這個全新版本正值OpenAI面對來自Google Gemini 3的強烈競爭壓力之際,後者在多個第三方性能排行榜和關鍵基準測試中搶佔了頂尖位置。儘管如此,OpenAI高層強調,GPT-5.2的開發和發布計劃早於Gemini 3問世之前已經確定。
OpenAI形容GPT-5.2是其「迄今為止最強大、最適合專業知識工作的模型系列」,目標是重新奪回性能冠軍寶座,並在推理、編碼和智能代理工作流程方面實現顯著提升。
OpenAI應用部門CEO Fidji Simo表示:「這是我們最先進的前沿模型,也是目前市場上最強大的專業應用方案。我們設計5.2版本是為了釋放更多經濟價值,無論是製作電子表格、製作簡報、撰寫代碼、圖像識別、理解長文本上下文、使用工具,還是處理複雜多步驟項目,它的表現都更出色。」
GPT-5.2擁有龐大的40萬字元上下文窗口,能同時處理數百份文件或大型代碼庫,並支援最高12.8萬字元的輸出,令其能一次生成詳盡報告或完整應用程式。模型知識截止於2025年8月31日,確保內容相當新穎,並引入了「推理字元支持」,採用廣受好評的「o1」系列鏈式思考架構。
「Code Red」緊急行動背後的真相
此發布緊接著媒體報導OpenAI CEO Sam Altman發出緊急「Code Red」指令,要求員工加強ChatGPT功能,旨在應對Gemini 3暴露的「質量差距」。《The Verge》也提前報導了GPT-5.2的發布時間。
不過,OpenAI高層在記者會上強調,GPT-5.2並非為了急於回應Google而匆忙推出。Simo表示:「這個項目已經籌備了很長時間。雖然Code Red令公司資源集中,但並非本週發布的唯一原因。」負責後期訓練的Max Schwarzer也表示:「我們早在數月前已定好這週發布計劃。」OpenAI發言人補充,Code Red主要針對ChatGPT產品整體,而非僅限於模型開發。
三大版本滿足不同需求:Instant、Thinking及Pro
OpenAI將GPT-5.2分為三個版本,平衡高昂計算成本與用戶對速度的需求:
– GPT-5.2 Instant:專為快速處理日常寫作、翻譯和資訊查詢而優化。
– GPT-5.2 Thinking:適合複雜結構性工作及持續運行的智能代理,擅長編碼、數學和多步驟項目。
– GPT-5.2 Pro:最高階版本,被形容為「最智能、最可信賴」,在解答難題時提供最高準確度,重質不重量。
以上模型已在API中同時上線,方便開發者即時使用。
性能數據驚人,專業知識工作領域領先群雄
OpenAI介紹了一項新基準GDPval,涵蓋44種職業的明確知識工作任務。Simo透露:「GPT-5.2 Thinking在該基準上達到業界領先,並在70.9%專業任務上與頂尖專家平起平坐,包括電子表格、簡報和文件製作。」
在編碼領域,GPT-5.2同樣領先。Schwarzer指出,該模型在真實軟件工程評測SWE-bench Pro中取得55.6%的新高分,該測試比以往更具挑戰性和抗污染能力。
其他亮眼成績包括:
– GPQA Diamond(科學領域):GPT-5.2 Pro得分93.2%,超越GPT-5.2 Thinking的92.4%。
– FrontierMath數學測試:GPT-5.2 Thinking解決率達40.3%,遠高於前代31.0%。
– ARC-AGI-1綜合推理測試:GPT-5.2 Pro首度突破90%門檻,獲得90.5%。
性能提升帶來成本挑戰
儘管ChatGPT訂閱價格暫時不變,API使用費用卻大幅上升,反映出推理模式的高昂運算需求。價格分別為:
– GPT-5.2 Thinking:每百萬輸入字元1.75美元,輸出14美元。
– GPT-5.2 Pro:輸入21美元,輸出168美元。
相較前代,5.2 Thinking API價格高出40%,顯示OpenAI視其推理能力為增值服務。Pro版本同樣上漲40%,但仍低於OpenAI最頂級的o1-pro模型,後者每百萬輸入字元收費高達150美元,輸出600美元。
OpenAI強調,儘管單字元成本高,但更高的「字元效率」及更少對話回合數,讓該模型在高價值企業工作流程中依然具經濟效益。
與其他競爭者API價格相比,GPT-5.2屬於行業高端水平,僅次於Google Gemini 3 Pro及Anthropic Claude系列。
圖像生成方面暫無突破,但未來可期
記者會中,OpenAI被問及GPT-5.2是否在圖像生成上有提升,尤其是市場對Google Gemini 3 Image(Nano Banana Pro)類似功能的熱切期待。OpenAI高層坦言目前新版本在圖像生成方面無新增功能,但承諾「未來會有更多」。
OpenAI訓練主管Aidan Clark表示,他本人無法透露具體的視覺生成細節。
進入「Mega-Agent」時代,強化多步驟智能工作
GPT-5.2被定位為推動新一代「長期運行智能代理」的核心引擎,這類代理能夠自主完成多步驟工作流程,減少人為干預。
Simo指出,5.2版本在處理長篇複雜文件時,資訊提取速度提升約40%,生命科學和醫療領域推理準確度亦提升40%。Notion反饋該模型在所有維度均優於5.1,尤其擅長處理模糊且長期的知識工作任務。Schwarzer補充,編碼初創企業Augment Code選擇5.2作為其代碼審查代理的動力,因其深度編碼能力遠超前代。
在視覺能力方面,OpenAI展示一個例子:一位旅客遇到航班延誤、錯過轉機、在紐約過夜並有醫療座位需求,GPT-5.2能自動處理整個流程,包括重新訂票、特殊協助座位安排和賠償申請,結果比GPT-5.1更完整。
新的ScreenSpot-Pro評測模型對GUI截圖理解能力,GPT-5.2 Thinking準確率達86.3%,遠超5.1的64.2%。
科學研究與可靠性獲重視
OpenAI高層強調GPT-5.2在科學研究上的應用價值,致力於將其打造為研究助理,而非僅是聊天機器人。
Clark分享,一位免疫學資深研究員利用5.2提出免疫系統尚未解答的關鍵問題,並認為該模型提出的問題更尖銳、解釋更有力,優於以往任何專業版模型。
可靠性方面,Schwarzer指出5.2的「幻覺」現象比5.1大幅減少38%,提升了回答的準確度。
不同用戶對模型「感覺」的差異
有趣的是,OpenAI承認並非所有用戶會立刻偏好新模型。Schwarzer坦言:「模型每次更新都會帶來些微變化,有些用戶可能更喜歡舊版本的『感覺』,儘管我們認為新版本整體更優。」部分企業用戶因為針對特定模型細節進行了精細優化,可能會因小幅回退而需要保留舊版。
安全機制與未來展望
針對安全性問題,Simo透露公司計劃在明年第一季度推出「成人模式」,並先行部署全新年齡預測系統,確保功能安全準確。
業界報導OpenAI正研發名為「Project Garlic」的架構革新,預計於2026年初推出下一代旗艦模型。雖然高層未透露具體路線圖,但Simo對目前經濟模式表現樂觀,指出過去三年算力和收入均以約3倍速度成長,形成良性循環。
Clark補充,最新模型在ARC-AGI評測中的表現提升明顯,且成本和算力需求較一年前減少近400倍。
GPT-5.2的Instant、Thinking和Pro版本已於今日開始向付費用戶(Plus、Pro、Team及Enterprise訂閱者)逐步開放,OpenAI將採取漸進式推出以維持系統穩定。
—
編輯評論與啟示
OpenAI這次推出的GPT-5.2,明顯是針對專業知識工作市場作出的一次大規模升級,反映出AI發展已不再只是追求「聊天流暢」或「娛樂性」,而是更深入地介入高端專業領域。其超大上下文窗口和強化的推理能力,讓AI能處理更複雜的文檔和多步驟任務,這對法律、金融、科研、軟件開發等行業具有革命性意義。
然而,性能提升伴隨的成本飆升,尤其是Pro版本的API價格,凸顯了AI服務商面對的經濟挑戰。OpenAI企圖以更高的效率與準確度來說服企業用戶接受這些成本,這種「質量為王」的策略能否成功,將考驗市場的承受力和用戶的實際需求。
此外,OpenAI在安全和用戶體驗上的細膩考量,如保留舊版以滿足不同用戶「感覺」的差異,以及即將推出的成人模式和年齡識別系統,顯示出AI產品在普及過程中必須兼顧技術與倫理的雙重維度。
值得關注的是,OpenAI未在此次更新中提升圖像生成能力,可能意味著他們正將重點放在語言模型的專業化與深度推理上,視覺領域的創新或將在未來的「Project Garlic」中實現。
整體來看,GPT-5.2標誌著AI進入一個更為成熟和細分的階段,競爭不再是簡單的「誰更會聊天」,而是誰能提供真正能解決專業問題、提升生產力的智能工具。對香港及全球用戶而言,這樣的技術進步意味著未來工作方式將更依賴AI輔助,如何善用這些工具,並同時關注其成本與倫理問題,將是我們面對的重要課題。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放