
搞砸一切
Mar 21, 5:11 PM EDT 由 Frank Landymore 發表
世界上最先進的AI代理完全無法通過一款兒童寶可夢遊戲
這實在不太有效…
如果你還未聽說,Anthropic正在直播它的AI模型Claude 3.7 Sonnet嘗試完成《寶可夢紅版》的遊玩過程。
這個實驗被稱為「Claude玩寶可夢」,旨在展示「AI代理」,這是業界為創造能夠自主運作並與環境互動的AI模型而展開的持續競賽。
Claude在遊戲中進展得相當遠,已經獲得了三枚道館徽章,並在本周來到了水箭龜城。不過,Claude的進展速度卻非常緩慢,每走一步都要停下來「思考」,有時候停的時間甚至比其他時候更長。舉例來說,Claude在月亮山中無目的地亂逛了將近80小時,才最終找到了需要的梯子逃出。投入的Twitch觀眾們終於鬆了一口氣。
進展似乎不會加快。這個Anthropic的AI在關東地區的探險大部分時間都在圍著圈子跑,對下一步該做什麼感到困惑。要到達下一個階段,它需要前往第五路,但它不知道去哪裡以及怎麼去?
在Claude的思維過程直播中,一個文本窗口顯示,這個AI正在利用排除法來判斷哪些位置不是第五路的入口。但它是否會拼湊出需要用HM「剪刀」去砍掉幾棵可以破壞的樹木來進入這條傳說中的道路?這看起來不太可能:它一直重複說需要找到通往這條路的「門房」。
總而言之,Claude被困住了。這個AI行業的領先模型可能會被一款世代以來都被小朋友打敗的遊戲難住。
根據工程師的說法,Claude的一大挑戰在於視覺處理它在遊戲中所見的東西。Claude在解讀遊戲的文本部分方面表現出色,包括寶可夢戰鬥。它還可以訪問遊戲的RAM,以獲取像遊戲內坐標這樣的信息。但是,它無法一致地解讀由於低解析度環境所構成的小像素。
「Claude在理解螢幕上的內容方面依然不太好,」負責寶可夢實驗的Anthropic工程師David Hershey在最近接受《Ars Technica》訪問時表示。「你會看到它經常試圖走進牆壁。」Hershey諷刺地指出,如果Claude玩的是一款視覺上更真實的遊戲,它可能會表現得更好。
「對我來說,理解遊戲中的建築是一座建築,並且我無法穿過它,這相對容易,」Hershey補充道。「而這對Claude來說是一個相當具挑戰性的事情。」
然而,有時候Claude的表現卻讓人驚訝,比如它對那些設計得故意誤導的遊戲線索的反應。
「他們告訴你需要去找奧克教授,但他並不在那裡,這真有趣,」Hershey告訴《Ars》,描述遊戲中的第一個任務。「作為一名5歲的孩子,這讓我非常困惑。但Claude通常也會經歷同樣的過程,先跟媽媽對話,然後去實驗室,找不到[奧克],最後說:『我需要搞清楚一些事情。』」
「它足夠複雜,能夠循著人類實際學習的方式進行,」Hershey補充道。
所以,也許一切尚未失去。Claude 3.7 Sonnet仍然有足夠的時間來扭轉局面。它的進展已經遠遠超過了它的前身3.0 Sonnet,後者甚至無法走出遊戲的起始區域——小木屋鎮。不過,它的掙扎顯示出這項技術在實現「代理性」方面仍然任重道遠,更不用說實現超越人類能力的承諾了。
在遊戲方面的更多資訊:為《地平線》遊戲中阿諾的配音演員對她角色的AI版本感到毛骨悚然。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。