
OpenAI推出全新o3-mini模型—免費ChatGPT用戶如何試用
如果你在使用ChatGPT進行STEM(科學、技術、工程和數學)任務,那麼你會想要了解這個更快、更便宜的模型。
在OpenAI的「船運節」的最後一天,該公司推出了最新的o3和o3-mini模型,這些模型在推理方面表現優異,並且在一系列基準測試中超越了o1,包括數學和科學。OpenAI的首席執行官山姆·阿爾特曼(Sam Altman)在發布會上表示,o3計劃在一月底推出,而今天,該公司兌現了這個承諾。
o3-mini
上週五,OpenAI向公眾發布了o3-mini模型,這是OpenAI推理系列中最具成本效益的模型。到目前為止,該系列包括o1和o1-mini。根據公司資料,這款模型在科學、數學和編碼方面尤其強大。
OpenAI的o3-mini現在可在ChatGPT和API中使用。專業用戶將擁有無限制的o3-mini訪問權限,而Plus和Team用戶的使用限制則是o1-mini的三倍。免費用戶可以通過在消息編輯器下方選擇「Reason」按鈕來試用o3-mini。
當選擇o3-mini時,它將使用中等推理努力,這樣可以平衡速度和準確性。儘管原始的o1模型在一般知識方面仍然比o3-mini更廣泛,但新模型的主要優勢在於其速度更快和性能更高,與o1-mini相比。
基準性能
在將o3-mini與o1-mini的性能進行比較時,專家測試者發現o3-mini提供了更準確、經過推理且更清晰的回答。他們表示,o3-mini的回答被更偏好56%的時間,並且主要錯誤的比例減少了39%。
除了人類偏好的評估外,在幾個STEM基準測試中,包括競賽數學(AIME 2024)、博士級科學問題(GPQA Diamond)和競賽編碼(Codeforces),o3-mini在中等推理下的表現超越了o1-mini。
安全性
OpenAI通過公開發布進行了o3-mini的安全性評估,並對其進行了越獄和不當內容的評估。公司發現該模型在評估中顯著超過了GPT-4o。OpenAI公佈了評估結果,並推出了一份包含詳細評估結果的o3-mini系統卡,這是一份37頁的PDF文件。
如何訪問
所有OpenAI的付費訂閱用戶,包括ChatGPT Plus、Team和Pro,從今天開始都可以訪問OpenAI o3-mini。Plus和Team用戶的消息限制是o1-mini的三倍,從每天50條消息增加到150條。ChatGPT Enterprise的訪問權限將在一周內推出。
o3-mini模型將取代o1-mini在模型選擇器中的位置,因為它將用於相同的任務,並且體驗將因延遲更低和使用限制更高而改善。至於我目前的付費用戶身份,寫作時我尚未獲得o3-mini的訪問權,而仍然只能看到o1-mini的選項。
如果你沒有訂閱,也不用擔心:你可以從免費帳戶中檢查o3-mini是否值得期待。所有免費的ChatGPT用戶只需在消息文本框中點擊「Reason」或重新生成一個回應即可。OpenAI首席執行官山姆·阿爾特曼在X平台上確認了免費訪問的消息。到目前為止,所有推理模型都被限制在付費牆後;OpenAI並未對新模型的免費用戶設置任何限制。
這次OpenAI的o3-mini模型推出,無疑是對推理能力的一次重大提升,尤其是在STEM領域。這不僅為免費用戶提供了新的試用機會,也為專業用戶帶來了更高效的工作體驗。隨著AI技術的快速發展,我們應該密切關注這些新工具如何應用於實際問題解決中,並思考在這個快速變化的環境裡,如何更好地利用這些技術來提升我們的工作和學習效率。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。