AI智能助手:將如何掌控你的電腦?

Ai

Anthropic 想讓其 AI 代理控制你的電腦

人們花了一段時間才適應擁有自主意識的聊天機器人。下一步的未知可能涉及信任人工智能來接管我們的電腦。

Anthropic,一家與 OpenAI 競爭的高飛公司,今天宣布,它已經教會其 AI 模型 Claude 在電腦上執行多種操作,包括搜索網絡、打開應用程式,以及使用滑鼠和鍵盤輸入文字。

Anthropic 的首席科學官兼約翰霍普金斯大學副教授 Jared Kaplan 表示:「我認為我們將進入一個新時代,模型可以使用你作為人所使用的所有工具來完成任務。」

Kaplan 向 WIRED 展示了一段預錄的演示,其中「代理型」版本的 Claude 被要求協助計劃與朋友在金門大橋看日出。在回應提示時,Claude 打開了 Chrome 瀏覽器,查找了 Google 上的相關信息,包括理想的觀賞地點和最佳時間,然後使用日曆應用程式創建了一個活動與朋友分享。(它未包括進一步的指示,例如如何以最短時間到達那裡的路線。)

在第二次演示中,Claude 被要求建立一個簡單的網站來推廣自己。在一個超現實的時刻,模型在其自己的網絡界面中輸入了一個文字提示以生成所需的代碼。然後它使用由 Microsoft 開發的流行代碼編輯器 Visual Studio Code 來編寫簡單的網站,並打開文字終端來啟動一個簡單的網絡伺服器以測試網站。該網站為 AI 模型提供了一個不錯的、1990 年代主題的登錄頁面。當用戶要求它修復網站上的問題時,模型返回編輯器,識別出有問題的代碼片段並刪除它。

Anthropic 的首席產品官 Mike Krieger 表示,公司希望所謂的 AI 代理能自動化日常辦公任務,讓人們在其他領域有更多生產力。「如果你擺脫了一大堆的複製和粘貼或其他事情,你會怎麼做?」他說。「我會去多彈吉他。」

Anthropic 正通過其應用程式介面(API)為其最強大的多模態大型語言模型 Claude 3.5 Sonnet 提供代理能力。公司今天還宣布了一個新版本的小型模型 Claude 3.5 Haiku。

AI 代理的演示可能令人驚嘆,但讓技術在現實生活中可靠地執行且不出現煩人的(或昂貴的)錯誤可能是一個挑戰。目前的模型能夠回答問題並以幾乎人類的技能進行對話,是聊天機器人的骨幹,例如 OpenAI 的 ChatGPT 和 Google 的 Gemini。當給予簡單命令時,它們還可以通過訪問電腦屏幕以及鍵盤和觸控板等輸入設備或低級軟件介面來在電腦上執行任務。

Anthropic 表示,Claude 在包括 SWE-bench(衡量代理的軟件開發技能)和 OSWorld(評估代理使用電腦操作系統的能力)在內的幾個關鍵基準上表現優於其他 AI 代理。這些說法尚未得到獨立驗證。Anthropic 表示,Claude 在 OSWorld 中正確執行任務的比例為 14.9%。這遠低於人類通常的 75%,但遠高於當前最佳代理(包括 OpenAI 的 GPT-4),其成功率約為 7.7%。

Anthropic 聲稱,幾家公司已在測試代理版本的 Claude。其中包括 Canva,它使用它來自動化設計和編輯任務,Replit 則使用該模型進行編碼工作。其他早期用戶包括 The Browser Company、Asana 和 Notion。

參與開發 SWE-bench 的普林斯頓大學博士後研究員 Ofir Press 表示,代理型 AI 往往缺乏長遠計劃能力,常常難以從錯誤中恢復。「為了證明它們的實用性,我們必須在艱難而現實的基準上獲得強大的表現,」他說,例如可靠地計劃用戶的各種旅行並預訂所有必要的票。

Kaplan 指出,Claude 已經能夠相當好地排除某些錯誤。例如,當嘗試啟動網絡伺服器時遇到終端錯誤時,模型知道如何修改其命令以解決問題。當它在瀏覽網絡時遇到死胡同時,它還知道必須啟用彈出窗口。

許多科技公司現在正在競相開發 AI 代理,以追求市場份額和知名度。事實上,可能不久後,許多用戶就能夠隨手使用代理。投入超過 130 億美元給 OpenAI 的微軟表示,正在測試可以使用 Windows 電腦的代理。亞馬遜則大力投資於 Anthropic,正在探索代理如何為其客戶推薦並最終購買商品。

專注於 AI 公司的風險投資公司 Sequoia 的合夥人 Sonya Huang 說,儘管 AI 代理引起了大量興奮,但大多數公司只是在重新包裝 AI 驅動的工具。在 Anthropic 新聞發佈之前,她向 WIRED 表示,當技術應用於狹窄領域(如編碼相關工作)時效果最好。「你需要選擇這樣的問題空間,即使模型失敗也無妨,」她說。「這些是會真正出現代理型公司的問題空間。」

代理型 AI 的一個主要挑戰是錯誤可能比聊天機器人的混亂回覆更成問題。Anthropic 對 Claude 的能力施加了某些限制,例如限制其使用個人信用卡購買物品的能力。

普林斯頓大學的 Press 表示,如果能夠很好地避免錯誤,用戶可能會以全新的方式看待 AI 和電腦。「我對這個新時代感到非常興奮,」他說。

評論

Anthropic 的最新突破展示了 AI 技術的潛力,尤其是在日常生活中的應用。然而,這種技術的廣泛應用仍然面臨著挑戰,特別是在可靠性和錯誤處理方面。AI 代理如果能夠在日常任務中提供穩定可靠的支持,將會大大提高效率,解放人類的時間去從事更有創造性的活動。然而,這也帶來了一些倫理和安全問題,例如如何防止AI濫用或誤用個人數據。未來的發展需要在技術創新和倫理監管之間取得平衡,以確保AI的安全使用和可持續發展。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *