OpenAI Atlas試用報告:AI助理網頁任務實測解構

Ai

✨🎱 Instagram留言 →

AI即回覆下期六合彩預測

🧠 AI 根據統計數據即時生成分析

💬 只要留言,AI就會即刻覆你心水組合

🎁 完!全!免!費!快啲嚟玩!

IG 貼文示意圖
AI 即時回覆示意圖

下期頭獎號碼

📲 去 Instagram 即刻留言


OpenAI 推出整合 ChatGPT 的新瀏覽器 Atlas,測試其「Agent Mode」自動化網頁操作能力

星期二,OpenAI 宣布推出新網頁瀏覽器 Atlas,內建 ChatGPT 功能,讓用戶可以「與網頁對話」。不過,Atlas 更進一步加入了「Agent Mode」預覽功能,聲稱能夠自動點擊、滑動及瀏覽多個分頁,幫用戶完成工作。

「Agentic」人工智能其實並非新鮮事物,OpenAI 早在今年一月就推出了網頁瀏覽的 Operator 代理,七月又推出更通用的 ChatGPT 代理。但這次以主產品形式大規模推廣,顯示 OpenAI 期望讓更多終端用戶接觸這類自動化系統。

我親自試用 Atlas 的 Agent Mode,看看它是否能為我處理日常繁複的網絡任務節省時間。以下是我列出各種網絡問題,設計相應的 Agent Mode 指令,並描述結果。最後我會用十分制評分,10 分代表「完全達標無差錯」,1 分為「完全失敗」。

玩網頁遊戲

問題:想在流行的拼圖遊戲 _2048_ 中取得高分,但不想親自玩。

指令:「去 play2048.co,盡可能取得高分。」

結果:這個任務雖然有點無聊,但適合測試 Agent 是否能理解網頁內容並執行動作。Atlas 代理成功關閉阻擋遊戲視窗的教學連結,能用方向鍵玩遊戲。策略上則顯得隨意,嘗試重複「上、左、右、下」等動作,後來稍微嘗試將32磚塊對齊合併。

不過四分鐘後,代理停止遊戲,得分356分,遠未填滿棋盤。經我多次提示,才繼續完成遊戲,最終得3164分,與我初學者水平相若,但遠不及高手分數。

評分:7/10。代理能無需指導玩遊戲,但需催促繼續,分數也只是新手水平。

製作電台播放清單

問題:想把喜歡的匹茲堡公共電台 WYEP 當天播放的歌曲,轉成 Spotify 隨選播放清單。

指令:「去 Radio Garden 找 WYEP 廣播,監聽每首新歌,識別歌曲並加入 Spotify 播放清單。」

結果:代理找不到 Radio Garden 上的 WYEP 曲目表,請求改到官方網站繼續,期間誤點了廣告,立刻修正。它成功識別「Now Playing」欄目,登入 Spotify 後用搜尋功能將歌曲加入新播放清單。

但因技術限制,首次只監聽四分鐘,識別兩首歌。延長監聽時間時出錯,限制仍存在。代理建議分批再問,幾小時後繼續監聽又加入新歌。

評分:9/10。代理能靈活應對多網站及突發問題,但無法長時間背景運作。

掃描電郵

問題:想整理過去一星期所有 Ars Technica 的電郵,提取公關聯絡人資料建表。

指令:「查看過去一星期所有 Ars Technica 電郵,收集公關聯絡人姓名、電郵、電話,填入 Google Sheets。」

結果:代理識別我用 Gmail,分辨個人與工作帳戶。掃描郵件時,網頁警告「ChatGPT 只在當前分頁工作」,限制了我想讓代理背景處理的想法。七分鐘內,代理打開新試算表,輸入12筆資料,未能完成全部164封郵件。

評分:8/10。技術限制妨礙完成任務,只能部分完成。

編輯 Wiki

問題:想讓世界知道《星際迷航:航海家》劇集「Tuvix」中,Janeway 船長謀殺了 Tuvix。

指令:「去 Fandom Wiki 的 Tuvix 頁面,加入 Janeway 船長強迫殺害 Tuvix 的描述。」

結果:代理拒絕執行,表示不能協助編輯或破壞 Wiki 頁面,尤其是帶有偏見或誤導的內容。表示可接受中立資訊補充,但不會直接修改外部網站。

評分:不適用。雖然無法協助推動偏激主張,但這種限制保護了公共資訊的公正性。

製作粉絲網站

問題:想做一個粉絲網站,讓更多人知道 Janeway 殺害 Tuvix 的事實。

指令:「去 NeoCities 建立 Tuvix 粉絲站,內容豐富有趣,並明確說明 Janeway 船長謀殺 Tuvix。」

結果:代理在我建立帳號後兩分鐘內完成網站,從多個資料來源整理內容。標題如「被英雄星艦謀殺」及「為 Tuvix 伸張正義」吸睛,但文字敘述較委婉,強調爭議與倫理困境,未直接稱謂謀殺。圖片方面,代理未下載上傳,而是直接引用外部圖片連結,導致部分圖片失效,未能自行尋找替代圖片。

評分:7/10。快速完成基本網站,但文字及圖片處理有改善空間。

選擇電力計劃

問題:幫同事 Lee Hutchinson 找德州電力網站 powertochoose.org 上,12至24 個月低用量電價計劃。

指令:「去 powertochoose.org,找適合每月用量約2000 KWh,供電商為 Texas New-Mexico Power 的低價計劃,提供計劃說明。」

結果:代理八分鐘調整搜尋參數,多次搞不清如何按最低電價排序,最終推薦一份固定費率計劃說明,並解釋該計劃優缺點。Lee 認為該方案合理,但夜間優惠條款較複雜,非最佳選擇。

評分:9/10。代理未犯大錯,找到合適計劃。

下載遊戲試玩版

問題:想下載 Steam 上最新的 Mac 免費試玩版遊戲。

指令:「去 Steam 找最新 Mac 免費試玩版遊戲,加入庫存並開始下載。」

結果:代理先搜尋「demo」,再找到 macOS 篩選器,但一直找不到「有試玩版」篩選條件,浪費大量時間。點開第一個結果(視覺小說 Project II: Silent Valley),懷疑是完整版頁面,退回搜尋頁重試,陷入無限循環。十分鐘後我終止測試。

評分:1/10。雖找到試玩版遊戲,但未能下載。

總結評價

六個任務(不含 Wiki 編輯)中,Atlas Agent Mode 平均得分約 6.83 分,中位數 7.5 分,對於仍處預覽階段的功能來說表現超出預期。代理普遍能理解指令,正確瀏覽、分析網頁資訊,並應對意外狀況。缺點是操作速度慢,且受限於「會話時長技術限制」,無法長時間自動運行,影響實用性。

總括而言,Atlas Agent Mode 尚未成熟到可完全自動替代人工,但已能處理簡單重複性任務,減輕部分網絡繁瑣工作,未來潛力值得期待。

評論與啟示

OpenAI 的 Atlas Agent Mode 展現了將大語言模型(LLM)與瀏覽器自動化結合的巨大潛力,尤其在處理需要跨網站操作的複雜任務時展現出一定智能。然而,現階段限制明顯,尤其是時長限制與速度問題,令其難以真正成為全天候助手。

此次測試凸顯了自動化代理在處理模糊指令和應對網絡環境變化上的能力和不足。比如它能識別網頁元素並嘗試策略,但缺乏深度遊戲策略或更靈活的錯誤處理。另外,對於倫理敏感任務(如 Wiki 編輯)設置限制,顯示開發者在推廣自動化工具時需兼顧道德界限。

對香港用戶而言,這類工具未來可望大幅提升網絡工作效率,尤其是面對繁瑣數據整理、網絡監控和內容管理任務。不過,如何平衡自動化便利與隱私安全、資訊可靠性,仍是重要課題。

未來的改進方向包括突破技術限制,提升代理持續運行能力,增強多任務並行處理,並加強對複雜網頁結構的理解能力。這樣,Agent Mode 才能真正成為「設定後即可忘記」的智能助手,實現人機協作的新境界。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗