OpenAI推出新工具協助企業建立AI代理
在本週二,OpenAI發布了新工具,旨在幫助開發者和企業建立AI代理——這些自動化系統可以獨立完成任務,利用該公司的AI模型和框架。
這些工具是OpenAI新推出的Responses API的一部分,允許企業開發定制的AI代理,能夠執行網絡搜索、掃描公司文件和瀏覽網站,類似於OpenAI的Operator產品。Responses API有效地取代了OpenAI的Assistants API,該公司計劃在2026年上半年停止使用。
儘管科技行業在展示或定義“AI代理”方面面臨挑戰,但近年來對AI代理的熱潮卻顯著增加。最近,中國初創企業Butterfly Effect因其新推出的AI代理平台Manus而迅速走紅,但用戶很快發現該平台未能實現公司所承諾的多項功能。
換句話說,OpenAI在正確開發代理方面面臨著高風險。
“演示你的代理相對容易,”OpenAI的API產品負責人Olivier Godemont在接受TechCrunch訪問時表示。“擴展一個代理則相對困難,而讓人們經常使用它更是一項挑戰。”
今年早些時候,OpenAI在ChatGPT中引入了兩個AI代理:Operator,能夠代表用戶瀏覽網站,和深度研究,為用戶編制研究報告。這兩個工具展示了代理技術的潛力,但在“自主性”方面仍有待改善。
現在,借助Responses API,OpenAI希望將驅動AI代理的組件出售給開發者,讓他們能夠構建類似Operator和深度研究的應用程序。OpenAI希望開發者能創造出一些應用,讓其代理技術的感覺更加自主。
開發者可以利用Responses API調用OpenAI的ChatGPT Search網絡搜索工具的相同AI模型(目前為預覽版):GPT-4o search和GPT-4o mini search。這些模型可以在網絡上查找問題的答案,並在生成回覆時引用來源。
OpenAI聲稱,GPT-4o search和GPT-4o mini search的事實準確性非常高。在公司的SimpleQA基準測試中,測量模型回答短小事實性問題的能力,GPT-4o search得分為90%,而GPT-4o mini search得分為88%(分數越高越好)。相比之下,GPT-4.5——OpenAI最近發布的更大模型——僅得63%。
AI驅動的搜索工具比傳統AI模型更準確並不意外——理論上,GPT-4o search可以直接查找正確答案。然而,網絡搜索並不能解決幻覺問題。除了事實準確性外,AI搜索工具在短小的導航查詢(例如“今天湖人隊的比數”)方面也往往表現不佳,最近的報告顯示,ChatGPT的引用並不總是可靠。
Responses API還包括一個文件搜索工具,可以快速掃描公司數據庫中的文件以檢索信息。(OpenAI聲稱不會在這些文件上訓練模型。)此外,使用Responses API的開發者還可以調用OpenAI的計算機使用代理(CUA)模型,該模型驅動Operator。該模型生成鼠標和鍵盤操作,允許開發者自動化數據輸入和應用工作流程等計算機使用任務。
企業可以選擇在自己的系統上本地運行CUA模型,OpenAI表示,CUA的消費者版本在Operator中僅能在網絡上執行操作。
需要明確的是,Responses API並不會解決當前困擾AI代理的所有技術問題。
儘管AI驅動的搜索工具比傳統AI模型更準確——這一事實並不意外,因為它們可以直接查找正確答案——網絡搜索並未解決AI幻覺問題。GPT-4o search仍然有10%的事實問題回答錯誤。除了準確性外,AI搜索工具在短小的導航查詢方面也往往表現不佳,最近的報告顯示,ChatGPT的引用並不總是可靠。
在提供給TechCrunch的博客文章中,OpenAI表示,CUA模型“尚未對操作系統上的任務自動化高度可靠”,並且容易出現“無意”的錯誤。
然而,OpenAI表示這些都是其代理工具的早期版本,並且正在不斷努力改進它們。
隨著Responses API的推出,OpenAI還發布了一個名為Agents SDK的開源工具包,為開發者提供免費工具,以便將模型與其內部系統集成,設置安全措施,並監控AI代理活動以進行調試和優化。Agents SDK可以看作是OpenAI去年晚些時候推出的多代理協調框架Swarm的一個後續版本。
Godemont表示,他希望OpenAI能在今年縮小AI代理演示與產品之間的差距,並且在他看來,“代理是AI最具影響力的應用”。這與OpenAI首席執行官Sam Altman在一月時所作的聲明相呼應:2025年將是AI代理進入工作場所的一年。
不管2025年是否真的成為“AI代理的年”,OpenAI的最新發布顯示該公司希望從華麗的代理演示轉向有影響力的工具。
在這篇文章中,我們可以看到,OpenAI正努力推進AI代理的商業應用,然而,這也反映出業界對於AI代理的期望與現實之間的差距。隨著技術的發展,企業在實施這類工具時,仍需謹慎考慮其可靠性和實用性。未來,如何真正實現AI代理的自主性及其在日常工作中的應用,將是一個值得關注的挑戰。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
![ultra-sharp close-up portrait of a woman [image uploaded] with soft, fair, luminous skin, natural rosy blush across her cheeks and nose. she has large, expressive brown eyes with subtle warm eyeshadow, soft eyeliner, and long defined lashes. her lips are glossy with a natural pink tint. her dark brown hair is styled in a voluminous messy updo with loose, wispy tendrils framing her face, creating a soft, youthful look. lighting is bright, warm, and natural, coming from the side window, casting gentle highlights on her skin and hair. she wears a red sleeveless top, layered delicate pearl necklaces, and a single visible red earring with gold detailing. background features a softly lit indoor space with curtains and a window showing blue sky, creating a fresh, airy mood. overall aesthetic is modern beauty photography with clean color tones, perfect skin texture, and high-end editorial styling. negative prompt: distorted face, unnatural freckles, incorrect hair texture, uneven lighting, heavy makeup, washed-out colors, low resolution, cluttered background, incorrect accessories, over-retouching, harsh shadows.](https://ssfuture.shop/wp-content/uploads/ai_gen_1766008395-300x201.png)

