Anthropic的最新AI更新可以自行操作電腦
Anthropic的新「電腦使用」功能現已向開發者開放。
Anthropic的最新Claude 3.5 Sonnet AI模型推出了一項新的公開測試功能,能夠通過觀看屏幕、移動光標、點擊按鈕和輸入文字來控制電腦。這項名為「電腦使用」的新功能今天已通過API向開發者開放,允許他們指導Claude像人類一樣在電腦上工作,正如下面的視頻所展示的那樣,在Mac上進行操作。
微軟的Copilot Vision功能和OpenAI的ChatGPT桌面應用程序已展示了其AI工具能根據看到的電腦屏幕進行操作的能力,而Google在其Android手機上的Gemini應用程序也有類似的功能。但這些公司尚未推出能夠像這樣廣泛釋放工具來點擊和執行任務的功能。Rabbit公司承諾其R1將具備類似的能力,但尚未實現。
Anthropic提醒,電腦使用功能仍處於實驗階段,可能會「繁瑣且易出錯」。該公司表示:「我們提前釋放電腦使用功能是為了獲得開發者的反饋,並期望這項功能能夠迅速改進。」
根據開發者的說法:
人們在使用電腦時經常進行的許多操作(如拖動、縮放等),Claude目前還無法嘗試。Claude的屏幕視圖是通過截圖並拼接在一起的「翻頁書」模式,而不是觀察更細緻的視頻流,這意味著它可能會錯過短暫的動作或通知。
此外,這個版本的Claude顯然被告知要避開社交媒體,並設有「措施來監控當Claude被要求參與選舉相關活動時的情況,以及系統來引導Claude避開生成和發布社交媒體內容、註冊網域名或與政府網站互動等活動。」
同時,Anthropic表示其新的Claude 3.5 Sonnet模型在多個基準測試中有所改進,並以與其前代產品相同的價格和速度提供給客戶:
更新的Claude 3.5 Sonnet在行業基準測試中顯示出廣泛的改進,尤其是在代理編碼和工具使用任務中表現出色。在編碼方面,它在SWE-bench Verified中的表現從33.4%提高到49.0%,分數高於所有公開可用的模型,包括OpenAI o1-preview等推理模型和專門設計的代理編碼系統。在TAU-bench的代理工具使用任務中,它在零售領域的表現從62.6%提高到69.2%,在更具挑戰性的航空領域從36.0%提高到46.0%。
編輯評論:
Anthropic的這項新技術令人振奮,顯示出AI技術在自動化和模擬人類操作方面的潛力。這不僅僅是一個技術突破,更可能會改變我們與電腦互動的方式。然而,這項技術目前仍存在一些限制和挑戰,例如操作的精確度和穩定性尚待提高。此外,Claude被設計成避免參與社交媒體和其他敏感活動,這顯示了技術公司在開發AI時對倫理和安全的重視。未來,隨著技術的不斷改進,這類AI工具可能會在更多領域發揮更大的作用,從而大幅提升工作效率和自動化水平。但同時,我們也需謹慎對待AI的應用,確保其不會被濫用或對社會產生負面影響。
以上文章由特價GPT API KEY所翻譯