Anthropic最新AI模型可以像你一樣使用電腦——即使有錯誤
Anthropic最新的Claude 3.5 Sonnet現已作為beta版供開發者試用。它可以查看屏幕、移動光標、點擊按鈕,甚至輸入文本。它並不完美,但你也不是!
Anthropic
想像一下,一個AI模型可以完全自主地使用電腦。現在,這不再只是想像。週二,Anthropic宣佈其最新一代的Claude AI模型可以像你我一樣使用電腦。這個被稱為Claude 3.5 Sonnet的AI已經以beta模式面向開發者提供API使用。
Anthropic宣稱這是「首個提供公眾beta版電腦使用功能的前沿AI模型」,Claude 3.5 Sonnet可以被開發者編程以多種方式使用電腦。通過使用API編程的產品或服務,你可以告訴AI「查看」電腦屏幕、在屏幕上移動光標、點擊按鈕,並通過虛擬鍵盤輸入文本。這個想法是模擬你與自己電腦互動的方式。
生成式AI並不一定是電力大戶
目前,這個新AI顯然還處於實驗階段,有時候操作繁瑣且容易出錯。然而,Anthropic針對開發者發佈這個新beta版,旨在收集反饋以改進模型。
為什麼AI使用電腦是有用的?Anthropic預見並回答了這個問題。
「現代大量的工作都是通過電腦完成的,」Anthropic說。「讓AI能夠像人一樣直接與電腦軟件互動,將解鎖大量目前一代AI助手無法實現的應用。」
那麼,開發者和用戶如何利用這個能使用電腦的AI呢?
「與其為了讓Claude完成個別任務而製作特定工具,我們正在教它一般的電腦技能——讓它能夠使用為人設計的各種標準工具和軟件程序,」Anthropic解釋道。「開發者可以利用這種初步能力來自動化重複性過程、構建和測試軟件,並進行開放式任務,如研究。」
多家公司已經在利用Claude 3.5 Sonnet的電腦操作能力,包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company。舉例來說,軟件開發和部署平台Replit正在利用這些能力來評估其Replit Agent產品的應用。
Claude如何工作?Anthropic揭示其秘密
根據Anthropic的說法,編程Claude學會使用電腦,尤其是查看屏幕並對其作出反應的過程,涉及大量試錯。
使用電腦需要能夠查看和解釋圖像,例如電腦屏幕上的圖像。它還涉及根據屏幕上顯示的內容來確定如何以及何時執行特定操作。為了解決這些需求,Claude 3.5 Sonnet查看截圖,這些截圖顯示了你正在查看的內容。AI然後計算垂直和水平像素數以確定光標的移動位置。這項技能對於AI發出鼠標命令至關重要。
Claude目前表現如何?
在OSWorld的基準測試中,這些測試評估AI模型使用電腦的嘗試,Claude 3.5 Sonnet得分為14.9%。雖然這遠低於70%-75%的人類水平,但幾乎是同類別中下一個最佳AI模型得分7.7%的兩倍,Anthropic表示。
這種AI使用電腦的嘗試仍然處於早期階段。因此,Claude無法執行更「高級」的電腦任務,如拖動窗口或放大屏幕。此外,Claude通過查看並組合截圖來工作,這意味著它可能會錯過某些操作和通知。
最佳編程AI(及不應使用的AI)
「我們預計電腦使用將迅速改進,變得更快、更可靠,並且對用戶希望完成的任務更有用,」Anthropic說。「對於那些軟件開發經驗較少的人來說,實施也將變得更加容易。在每個階段,我們的研究人員將與安全團隊密切合作,以確保Claude的新功能伴隨適當的安全措施。」
Claude 3.5 Sonnet現已向所有人開放。開發者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用這個電腦使用beta版來構建應用。
編者評論:
Anthropic的Claude 3.5 Sonnet的推出標誌著AI技術的一個重要里程碑。這不僅僅是技術進步,更是對人機互動方式的一次重大變革。AI能夠模仿人類使用電腦的能力,無疑將顛覆我們對自動化和生產力的認知。然而,這也提出了一些新的挑戰和問題,如如何確保這些技術不被濫用,以及如何在推動技術進步的同時保護用戶隱私和安全。
從長遠來看,這樣的技術可能會改變我們的工作方式,尤其是在需要大量重複性任務的行業,如數據輸入、軟件測試和市場研究。然而,我們也需要警惕技術過度依賴帶來的風險,如技術故障或安全漏洞。最終,如何在技術進步和安全保障之間找到平衡,將是我們需要共同面對的挑戰。
以上文章由特價GPT API KEY所翻譯