OpenAI 推全新 AI 助手 Operator,網頁任務自動搞掂?

Ai

OpenAI推出全新AI助手Operator

OpenAI最近推出了一款名為Operator的AI助手,這是一個相對自主的人工智能代理,旨在將簡單的文本提示轉化為通過互聯網完成的真實任務。理論上,用戶可以要求它執行幾乎任何可以通過網頁瀏覽器完成的任務。然而,早期用戶的反饋顯示,實際效果似乎存在一定的不穩定性。

Operator的功能和運作方式

Operator的某些功能包括預訂旅行、為特定時間進行餐廳預約,或是在指定價格範圍內購買某個樂隊的音樂會門票。目前,Operator仍然處於研究預覽階段,僅對ChatGPT Pro訂閱用戶開放,而不是一款成熟的產品。它基於OpenAI的計算機使用代理(CUA)模型,結合了GPT-4的計算機視覺能力和特定圖形用戶界面的訓練,並具備高級推理能力,能夠瀏覽網絡、從文本提示中形成多步任務並執行整個過程。

雖然Operator的功能並不獨特,因為ByteDance的UI-TARS和Anthropic的計算機使用代理有類似的功能,但Operator的一個特點是它不需要API。

OpenAI表示:“Operator可以通過截圖‘看見’並利用鼠標和鍵盤的所有操作‘與瀏覽器互動’,使其能在不需要自定義API集成的情況下在網絡上採取行動。”不過,如果網絡服務針對Operator進行優化,效果會更佳。OpenAI還提到,他們正在與DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber等公司合作,確保Operator能滿足實際需求,同時遵循既定規範。

Operator的準確性和效率

目前尚不清楚Operator在接收提示並執行任務方面的準確性。OpenAI自己表示,CUA模型在OSWorld基準測試中對於完整計算機使用任務的成功率為38.1%,WebArena的成功率為58.1%,而WebVoyager的網絡任務成功率則為87%。一些早期用戶報告稱,Operator可能比最近版本的ChatGPT更容易出現幻覺現象。例如,有用戶反映,在要求生成一份網上影響者及其聯繫方式的列表時,Operator完全是虛構了所有細節。

此外,有用戶還指出,Operator的反應速度意外地慢,這似乎與OpenAI發布的視頻演示相符。顯然,它的鼠標輸入速度並不迅速。

因此,若你希望Operator下週為你購物並期待所有正確的商品到貨,似乎還是有些冒險的。

未來的發展與安全性考量

最大的問題是,這個早期測試版本的Operator究竟需要多久才能發展成為一個廣泛可靠和有用的工具。當然,還有一個更重要的問題是,當它成熟後,安全性如何。

OpenAI表示:“我們知道壞人可能會試圖濫用這項技術。因此,我們設計Operator拒絕有害請求並阻止不當內容。”OpenAI還解釋,Operator被設計為能夠應對可能試圖通過隱藏提示、惡意代碼或網絡釣魚企圖來劫持AI代理的網站。

目前,這些問題仍然是未知數。不過,無論好壞,似乎不久的將來,你將能夠將相當多的日常在線任務交給這個AI代理去處理。

這篇文章探討了OpenAI的最新AI助手Operator的功能和潛在挑戰。值得注意的是,儘管這項技術表現出色,但其不穩定性和幻覺現象可能會影響用戶體驗。未來,OpenAI需要加強對AI助手的優化,並確保其在實際應用中的安全性。這提醒我們,在追求技術進步的同時,對於AI的監管和道德考量也應該同步跟進,確保技術的正確使用和發展。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon