
人人都在談論Manus:我們進行了測試
由於中國的通用AI代理Manus上周推出,這個產品在網上迅速傳播。不僅在中國,這款由位於武漢的初創公司Butterfly Effect開發的產品,已經進入全球討論的熱潮中。許多科技界的影響力人物,包括推特創辦人傑克·多爾西和Hugging Face的產品負責人維克多·穆斯塔爾,都對其表現表示讚賞。有些人甚至將其稱為“第二個DeepSeek”,將其與早期令業界驚訝的AI模型作比較,無論是因為其意想不到的能力,還是其來源。
Manus自稱是全球首個通用AI代理,利用多個AI模型(如Anthropic的Claude 3.5 Sonnet和經過微調的阿里巴巴開源的Qwen),以及各種獨立運作的代理,能夠自主執行廣泛的任務。(這與基於單一大型語言模型的AI聊天機器人不同,包括DeepSeek,它們主要是為了對話互動而設計的。)
儘管有如此多的炒作,目前只有極少數人有機會使用它。目前,等候名單上的用戶中不到1%收到了邀請碼。(目前不清楚這個等候名單上有多少人,但從Manus的Discord頻道超過186,000名成員來看,這顯示出很高的興趣。)
MIT科技評論獲得了Manus的使用權,我在測試中發現,使用它的感覺就像與一位非常聰明且高效的實習生合作:雖然它偶爾會對所要求的任務缺乏理解,做出錯誤的假設,或為了加快任務而走捷徑,但它能清楚地解釋其推理過程,適應性極強,並且在提供詳細指示或反饋後能顯著改善。總的來說,它很有潛力,但並不完美。
就像其母公司之前推出的AI助手Monica(於2023年發布)一樣,Manus的設計為全球受眾而設。預設語言為英語,界面簡潔明了。
用戶需要輸入有效的邀請碼才能進入系統。隨後系統會將用戶引導至一個登陸頁面,與ChatGPT或DeepSeek的頁面非常相似,左側顯示歷史會話,中央則是聊天輸入框。該登陸頁面還展示了由公司策劃的樣本任務,範圍從商業策略發展到互動學習,再到個性化音頻冥想會議。
像其他基於推理的代理AI工具(如ChatGPT DeepResearch)一樣,Manus能夠將任務分解為步驟,並自主瀏覽網絡以獲取完成任務所需的信息。它的特點在於“Manus的計算機”窗口,這不僅允許用戶觀察代理的操作,還能在任何時候進行干預。
為了測試,我給Manus布置了三個任務:(1)編制一份報導中國科技的知名記者名單,(2)搜索紐約市的兩居室房產列表,以及(3)提名潛在的“35歲以下創新者”候選人,這是MIT科技評論每年都會發布的名單。
以下是它的表現:
任務1:Manus給我的第一份記者名單僅包含五個名字,下面還有五個“榮譽提名”。我注意到它列出了一些記者的顯著作品,而其他人則沒有。我問Manus為什麼這樣。它提供的理由簡單得令人捧腹:它變得“懶惰”。它告訴我,這部分是因為“時間有限,我試圖加快研究過程”。當我堅持要求一致性和徹底性時,Manus隨即提供了一份包含30名記者的全面名單,並註明了他們目前的媒體機構和顯著作品。(我很高興看到自己也在名單上,還有許多我喜愛的同行。)
我對能夠對變更提出高層次的建議感到驚訝,就像與真實的實習生或助手合作一樣,而它也能相應地回應。儘管它最初忽略了一些記者的雇主狀態變更,但當我要求它重新檢查一些結果時,它迅速修正了。另一個不錯的功能是:輸出的內容可以下載為Word或Excel文件,方便編輯或分享。
不過,Manus在訪問記者的新聞文章時遇到了障礙;它經常遭遇CAPTCHA屏障。由於我能跟隨其操作,因此我能夠輕鬆接管來完成這些任務,但許多媒體網站仍然因為可疑活動而封鎖了該工具。我認為這裡有很大的改進潛力——如果Manus的未來版本能在遇到這些限制時主動請求幫助,那將會非常有用。
任務2:在公寓搜索中,我給Manus提供了一組複雜的標準,包括預算、寬敞的廚房、戶外空間、前往曼哈頓市中心的便利性,以及距離主要火車站七分鐘的步行距離。Manus最初對“某種戶外通道”這樣的模糊要求理解得過於字面,完全排除了沒有私人露台或陽台的房產。然而,在更多的指導和澄清後,它能夠編制出更廣泛和更有幫助的名單,並以層級和整齊的項目符號給出建議。
最終的輸出感覺像是來自Wirecutter的報導,包含了“最佳整體”、“最佳價值”和“奢華選擇”等小標題。這項任務(包括來回的交流)花了不到半小時——比編制記者名單的時間少得多(後者花了一個多小時),這可能是因為房產列表在網上更容易獲取且結構良好。
任務3:這是範圍最大的任務:我要求Manus提名50位今年的“35歲以下創新者”。製作這份名單是一項龐大的工程,我們每年通常會收到數百個提名。因此,我很好奇Manus能做到多好。它將任務分解為幾個步驟,包括審查過去的名單以了解選擇標準、制定識別候選人的搜索策略、編制名字以及確保候選人來自世界各地的多樣性。
制定搜索策略是Manus花費最多時間的部分。雖然它並未明確列出其方法,但“Manus的計算機”窗口顯示該代理快速瀏覽著各大研究大學的網站、技術獎項的公告和新聞文章。然而,它在嘗試訪問學術論文和付費媒體內容時再次遇到了障礙。
在經過三小時的網絡搜索後——期間Manus(可以理解地)多次詢問我是否能縮小搜索範圍——它只能提供三名完整背景的候選人。當我再次要求它提供完整的50人名單時,它最終生成了一份,但某些學術機構和領域的代表性過強,反映出研究過程的不完善。在我指出問題並要求它找到五名來自中國的候選人後,它成功編制了一份穩固的五人名單,不過結果偏向於中國媒體的寵兒。最終,當系統警告Manus的表現可能會因為我持續輸入過多文本而下降時,我不得不放棄。
我的評估:總體而言,我發現Manus是一個非常直觀的工具,適合有無編程背景的用戶。在三個任務中,它提供的結果在兩個任務上優於我將相同任務交給ChatGPT DeepResearch的情況,儘管完成這些任務所需的時間顯著更長。Manus似乎最適合需要在開放互聯網上進行廣泛研究的分析任務,但範圍有限。換句話說,它最適合執行熟練的實習生在工作日內能完成的任務。
然而,並非一切都一帆風順。Manus經常發生崩潰和系統不穩定的情況,並在處理大量文本時會遇到困難。在我啟動新請求時,屏幕上多次出現“由於當前服務負載較高,無法創建任務。請稍後再試”的消息,偶爾Manus的計算機在某個頁面上長時間凍結。
它的故障率高於ChatGPT DeepResearch——這是團隊正在解決的問題,根據Manus的首席科學家Peak Ji的說法。儘管如此,中國媒體36Kr報導稱,Manus的每項任務成本約為2美元,僅為DeepResearch成本的十分之一。如果Manus團隊加強其服務器基礎設施,我可以預見這個工具將成為單個用戶的首選,特別是白領專業人士、獨立開發者和小型團隊。
最後,我認為Manus的工作過程更具透明度和協作性是非常有價值的。它在過程中主動提出問題,並將關鍵指示保留為“知識”以供未來使用,從而實現易於自定義的代理體驗。每個會話還可以重播和分享,這也相當不錯。
我預計會繼續在個人和專業生活中使用Manus處理各種任務。雖然我不確定將其與DeepSeek進行比較是否完全正確,但這進一步證明了中國的AI公司不僅僅是在追隨西方對手的腳步。它們不僅在基礎模型上進行創新,還在以自己的方式積極塑造自主AI代理的採用。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。