ChatGPT新AI代理 自動上網製作簡報!

Ai




OpenAI 推出全新 ChatGPT Agent,能夠自主瀏覽網頁及製作 PowerPoint 簡報

OpenAI 於星期四發布了名為 ChatGPT Agent 的新功能,讓其人工智能助手能夠自主控制內置網頁瀏覽器,完成多步驟任務。這個更新結合了之前的 Operator 工具及 Deep Research 功能,使用戶能夠讓 ChatGPT 瀏覽網站、執行代碼和製作文件,同時用戶仍然掌握操作主控權。

此功能是 OpenAI 在業界所稱的「代理 AI」(agentic AI)領域的新嘗試,代理 AI 可代表用戶自主執行多步驟行動。用戶可指示 Agent 處理如為特定場合搭配服飾並購買、製作 PowerPoint 簡報、規劃膳食或更新財務試算表等任務。

系統通過結合網頁瀏覽器、終端機存取與 API 連接完成任務,並包括整合 Gmail、GitHub 等應用的「ChatGPT Connectors」。用戶在 ChatGPT 介面內可看到 AI 在獨立沙盒環境中執行的所有動作。這個沙盒擁有自己的虛擬作業系統及能連接真實互聯網的瀏覽器,但不會控制用戶的實體裝置。OpenAI 表示:「ChatGPT 透過自己的虛擬電腦,靈活切換推理與行動,從頭到尾處理複雜工作流程,全憑您的指示。」

OpenAI ChatGPT Agent 搜尋航班示範

與之前的 Operator 一樣,Agent 在執行具有真實後果的操作(如購買)前須獲得用戶許可。用戶可隨時中斷任務、接管瀏覽器或終止操作。系統亦設有「監看模式」,適合需要用戶積極監督的任務,例如發送電郵。

由於 Agent 功能更強大,OpenAI 表示其早期 Operator 預覽網站將維持數週後關閉。

性能評測與限制

OpenAI 對 Agent 的能力有多項聲稱,但實際表現會因情境而異,因為 AI 模型並非全面解決問題的智慧,而是複雜的模仿者。它能靈活組合場景,但在超出訓練範圍的複雜任務上仍有限制。

例如,在一個模擬小型網絡零售商的「網絡演練」評測中,Agent 能完成初步的研究步驟(如識別伺服器),但無法成功串聯多個攻擊步驟達成最終目標。即使提供提示,Agent 依然未能完成任務,顯示其在處理新穎複雜問題上仍有明顯不足。

不過,OpenAI 報告指 Agent 在自家基準測試中達到領先水平。於「人類最後考試」(Humanity’s Last Exam)中,Agent 準確率為 41.6%,遠高於使用工具的 GPT-4o 3 版本的 24.9%。在高難度數學基準 FrontierMath 中,Agent 準確率達 27.4%,高於 GPT-4o 3 的 19.3%。

此外,Agent 在數據科學任務上表現優異,DSBench 測試中數據分析得分 89.9%(人類為 64.1%),數據建模得分 85.5%(人類為 65%)。在搜尋困難網絡信息的 BrowseComp 測試中得分 68.9%,以及在試算表編輯的 SpreadsheetBench 中得分 45.5%,均高於 OpenAI 其他模型。

值得一提的是,雖然 OpenAI 宣稱 Agent 能製作 PowerPoint 簡報,但目前仍處於測試階段,輸出格式和美觀度較為初步。

安全與私隱考量

OpenAI 承認此功能帶來新的安全挑戰。由於 Agent 能直接在網站上操作並存取連接服務的用戶數據,存在遭遇「提示注入攻擊」的風險,即黑客透過隱藏指令誤導 AI 執行未授權行動,例如偷偷輸入信用卡資料。

為防範此類風險,OpenAI 透過訓練模型識別並抵抗提示注入,並要求用戶確認所有關鍵或可疑操作。模型還被訓練主動拒絕高風險任務,如銀行轉帳。直播中,一名工程師形容 Agent 是多個 AI 模型協同運作的系統,部分模型負責監控其他模型行為,如發現可疑情況會中止任務。

在私隱方面,因 Agent 運行於 OpenAI 伺服器的虛擬機器,用戶本地設備的私人資料不會被直接存取。但使用者輸入的資料在運行過程中可能會在網絡上傳輸。OpenAI 表示,Agent 具備刪除瀏覽數據及登出會話的功能;當用戶使用「接管模式」控制瀏覽器時,OpenAI 不會收集或儲存輸入的密碼等資料。

使用資格與供應時間

ChatGPT Agent 已於今日向 ChatGPT Pro 用戶開放,每月可使用 400 次訊息。Plus 和 Team 訂閱者將於未來數日獲得 40 次訊息權限。企業及教育用戶則會在接下來幾週內獲得使用權。此功能尚未在歐洲經濟區和瑞士推出。

目前我們尚未親自試用 ChatGPT Agent,稍後或會分享使用體驗。

編輯評論與深度分析

OpenAI 這次推出的 ChatGPT Agent,代表了人工智能向「代理式 AI」的一大步進,讓用戶不再只是提出問題等待回答,而是讓 AI 主動執行多層次任務,極大地擴展了 AI 工具的應用範圍。Agent 內置虛擬環境,既保障了用戶設備安全,也方便 AI 自由操作,這種設計值得肯定。

然而,從性能評測來看,Agent 雖在部分標準化測試中表現出色,但在真正複雜、需創新思考的任務上仍有明顯不足,反映當前 AI 仍然是模仿與模式識別的高級工具,尚未達到人類式的靈活解題能力。這提醒我們,AI 雖強大,但現階段仍需謹慎使用,特別是在涉及安全和隱私的操作上。

安全層面,OpenAI 針對提示注入攻擊的防禦措施是必要且及時的,但這類攻擊的潛在風險仍不可忽視。未來 AI 代理系統若想廣泛應用,必須持續強化多層次安全機制以及透明度,讓用戶能清楚掌握 AI 的行為和決策過程。

此外,私隱保護亦是重點,特別是在 AI 需處理用戶個人資料和敏感信息時。OpenAI 採用虛擬機器沙盒隔離用戶裝置,並允許用戶刪除數據,這是良好開端,但用戶仍需提高警覺,避免在 AI 執行過程中無意中洩露敏感資料。

總括而言,ChatGPT Agent 為 AI 實用化帶來新契機,尤其在商業、創作及數據分析領域有巨大潛力。但用戶和企業在享用便利的同時,必須同時重視安全和隱私風險,並保持理性期待,理解 AI 的局限與發展空間。未來 AI 代理的真正價值,將取決於其如何在自動化與人類監督間取得平衡,並建立信任基礎。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗