AI都搞唔掂？最強AI玩Pokémon Red卡關！

zero comment

搞砸一切
Mar 21, 5:11 PM EDT 由 Frank Landymore 發表

世界上最先進的AI代理完全無法通過一款兒童寶可夢遊戲
這實在不太有效…

如果你還未聽說，Anthropic正在直播它的AI模型Claude 3.7 Sonnet嘗試完成《寶可夢紅版》的遊玩過程。

這個實驗被稱為「Claude玩寶可夢」，旨在展示「AI代理」，這是業界為創造能夠自主運作並與環境互動的AI模型而展開的持續競賽。

Claude在遊戲中進展得相當遠，已經獲得了三枚道館徽章，並在本周來到了水箭龜城。不過，Claude的進展速度卻非常緩慢，每走一步都要停下來「思考」，有時候停的時間甚至比其他時候更長。舉例來說，Claude在月亮山中無目的地亂逛了將近80小時，才最終找到了需要的梯子逃出。投入的Twitch觀眾們終於鬆了一口氣。

進展似乎不會加快。這個Anthropic的AI在關東地區的探險大部分時間都在圍著圈子跑，對下一步該做什麼感到困惑。要到達下一個階段，它需要前往第五路，但它不知道去哪裡以及怎麼去？

在Claude的思維過程直播中，一個文本窗口顯示，這個AI正在利用排除法來判斷哪些位置不是第五路的入口。但它是否會拼湊出需要用HM「剪刀」去砍掉幾棵可以破壞的樹木來進入這條傳說中的道路？這看起來不太可能：它一直重複說需要找到通往這條路的「門房」。

總而言之，Claude被困住了。這個AI行業的領先模型可能會被一款世代以來都被小朋友打敗的遊戲難住。

根據工程師的說法，Claude的一大挑戰在於視覺處理它在遊戲中所見的東西。Claude在解讀遊戲的文本部分方面表現出色，包括寶可夢戰鬥。它還可以訪問遊戲的RAM，以獲取像遊戲內坐標這樣的信息。但是，它無法一致地解讀由於低解析度環境所構成的小像素。

「Claude在理解螢幕上的內容方面依然不太好，」負責寶可夢實驗的Anthropic工程師David Hershey在最近接受《Ars Technica》訪問時表示。「你會看到它經常試圖走進牆壁。」Hershey諷刺地指出，如果Claude玩的是一款視覺上更真實的遊戲，它可能會表現得更好。

「對我來說，理解遊戲中的建築是一座建築，並且我無法穿過它，這相對容易，」Hershey補充道。「而這對Claude來說是一個相當具挑戰性的事情。」

然而，有時候Claude的表現卻讓人驚訝，比如它對那些設計得故意誤導的遊戲線索的反應。

「他們告訴你需要去找奧克教授，但他並不在那裡，這真有趣，」Hershey告訴《Ars》，描述遊戲中的第一個任務。「作為一名5歲的孩子，這讓我非常困惑。但Claude通常也會經歷同樣的過程，先跟媽媽對話，然後去實驗室，找不到[奧克]，最後說：『我需要搞清楚一些事情。』」

「它足夠複雜，能夠循著人類實際學習的方式進行，」Hershey補充道。

所以，也許一切尚未失去。Claude 3.7 Sonnet仍然有足夠的時間來扭轉局面。它的進展已經遠遠超過了它的前身3.0 Sonnet，後者甚至無法走出遊戲的起始區域——小木屋鎮。不過，它的掙扎顯示出這項技術在實現「代理性」方面仍然任重道遠，更不用說實現超越人類能力的承諾了。

在遊戲方面的更多資訊：為《地平線》遊戲中阿諾的配音演員對她角色的AI版本感到毛骨悚然。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。