中國AI「Manus」實測：勁過ChatGPT？未來AI助手有幾掂？

zero comment

人人都在談論Manus：我們進行了測試

由於中國的通用AI代理Manus上周推出，這個產品在網上迅速傳播。不僅在中國，這款由位於武漢的初創公司Butterfly Effect開發的產品，已經進入全球討論的熱潮中。許多科技界的影響力人物，包括推特創辦人傑克·多爾西和Hugging Face的產品負責人維克多·穆斯塔爾，都對其表現表示讚賞。有些人甚至將其稱為“第二個DeepSeek”，將其與早期令業界驚訝的AI模型作比較，無論是因為其意想不到的能力，還是其來源。

Manus自稱是全球首個通用AI代理，利用多個AI模型（如Anthropic的Claude 3.5 Sonnet和經過微調的阿里巴巴開源的Qwen），以及各種獨立運作的代理，能夠自主執行廣泛的任務。（這與基於單一大型語言模型的AI聊天機器人不同，包括DeepSeek，它們主要是為了對話互動而設計的。）

儘管有如此多的炒作，目前只有極少數人有機會使用它。目前，等候名單上的用戶中不到1%收到了邀請碼。（目前不清楚這個等候名單上有多少人，但從Manus的Discord頻道超過186,000名成員來看，這顯示出很高的興趣。）

MIT科技評論獲得了Manus的使用權，我在測試中發現，使用它的感覺就像與一位非常聰明且高效的實習生合作：雖然它偶爾會對所要求的任務缺乏理解，做出錯誤的假設，或為了加快任務而走捷徑，但它能清楚地解釋其推理過程，適應性極強，並且在提供詳細指示或反饋後能顯著改善。總的來說，它很有潛力，但並不完美。

就像其母公司之前推出的AI助手Monica（於2023年發布）一樣，Manus的設計為全球受眾而設。預設語言為英語，界面簡潔明了。

用戶需要輸入有效的邀請碼才能進入系統。隨後系統會將用戶引導至一個登陸頁面，與ChatGPT或DeepSeek的頁面非常相似，左側顯示歷史會話，中央則是聊天輸入框。該登陸頁面還展示了由公司策劃的樣本任務，範圍從商業策略發展到互動學習，再到個性化音頻冥想會議。

像其他基於推理的代理AI工具（如ChatGPT DeepResearch）一樣，Manus能夠將任務分解為步驟，並自主瀏覽網絡以獲取完成任務所需的信息。它的特點在於“Manus的計算機”窗口，這不僅允許用戶觀察代理的操作，還能在任何時候進行干預。

為了測試，我給Manus布置了三個任務：（1）編制一份報導中國科技的知名記者名單，（2）搜索紐約市的兩居室房產列表，以及（3）提名潛在的“35歲以下創新者”候選人，這是MIT科技評論每年都會發布的名單。

以下是它的表現：

任務1：Manus給我的第一份記者名單僅包含五個名字，下面還有五個“榮譽提名”。我注意到它列出了一些記者的顯著作品，而其他人則沒有。我問Manus為什麼這樣。它提供的理由簡單得令人捧腹：它變得“懶惰”。它告訴我，這部分是因為“時間有限，我試圖加快研究過程”。當我堅持要求一致性和徹底性時，Manus隨即提供了一份包含30名記者的全面名單，並註明了他們目前的媒體機構和顯著作品。（我很高興看到自己也在名單上，還有許多我喜愛的同行。）

我對能夠對變更提出高層次的建議感到驚訝，就像與真實的實習生或助手合作一樣，而它也能相應地回應。儘管它最初忽略了一些記者的雇主狀態變更，但當我要求它重新檢查一些結果時，它迅速修正了。另一個不錯的功能是：輸出的內容可以下載為Word或Excel文件，方便編輯或分享。

不過，Manus在訪問記者的新聞文章時遇到了障礙；它經常遭遇CAPTCHA屏障。由於我能跟隨其操作，因此我能夠輕鬆接管來完成這些任務，但許多媒體網站仍然因為可疑活動而封鎖了該工具。我認為這裡有很大的改進潛力——如果Manus的未來版本能在遇到這些限制時主動請求幫助，那將會非常有用。

任務2：在公寓搜索中，我給Manus提供了一組複雜的標準，包括預算、寬敞的廚房、戶外空間、前往曼哈頓市中心的便利性，以及距離主要火車站七分鐘的步行距離。Manus最初對“某種戶外通道”這樣的模糊要求理解得過於字面，完全排除了沒有私人露台或陽台的房產。然而，在更多的指導和澄清後，它能夠編制出更廣泛和更有幫助的名單，並以層級和整齊的項目符號給出建議。

最終的輸出感覺像是來自Wirecutter的報導，包含了“最佳整體”、“最佳價值”和“奢華選擇”等小標題。這項任務（包括來回的交流）花了不到半小時——比編制記者名單的時間少得多（後者花了一個多小時），這可能是因為房產列表在網上更容易獲取且結構良好。

任務3：這是範圍最大的任務：我要求Manus提名50位今年的“35歲以下創新者”。製作這份名單是一項龐大的工程，我們每年通常會收到數百個提名。因此，我很好奇Manus能做到多好。它將任務分解為幾個步驟，包括審查過去的名單以了解選擇標準、制定識別候選人的搜索策略、編制名字以及確保候選人來自世界各地的多樣性。

制定搜索策略是Manus花費最多時間的部分。雖然它並未明確列出其方法，但“Manus的計算機”窗口顯示該代理快速瀏覽著各大研究大學的網站、技術獎項的公告和新聞文章。然而，它在嘗試訪問學術論文和付費媒體內容時再次遇到了障礙。

在經過三小時的網絡搜索後——期間Manus（可以理解地）多次詢問我是否能縮小搜索範圍——它只能提供三名完整背景的候選人。當我再次要求它提供完整的50人名單時，它最終生成了一份，但某些學術機構和領域的代表性過強，反映出研究過程的不完善。在我指出問題並要求它找到五名來自中國的候選人後，它成功編制了一份穩固的五人名單，不過結果偏向於中國媒體的寵兒。最終，當系統警告Manus的表現可能會因為我持續輸入過多文本而下降時，我不得不放棄。

我的評估：總體而言，我發現Manus是一個非常直觀的工具，適合有無編程背景的用戶。在三個任務中，它提供的結果在兩個任務上優於我將相同任務交給ChatGPT DeepResearch的情況，儘管完成這些任務所需的時間顯著更長。Manus似乎最適合需要在開放互聯網上進行廣泛研究的分析任務，但範圍有限。換句話說，它最適合執行熟練的實習生在工作日內能完成的任務。

然而，並非一切都一帆風順。Manus經常發生崩潰和系統不穩定的情況，並在處理大量文本時會遇到困難。在我啟動新請求時，屏幕上多次出現“由於當前服務負載較高，無法創建任務。請稍後再試”的消息，偶爾Manus的計算機在某個頁面上長時間凍結。

它的故障率高於ChatGPT DeepResearch——這是團隊正在解決的問題，根據Manus的首席科學家Peak Ji的說法。儘管如此，中國媒體36Kr報導稱，Manus的每項任務成本約為2美元，僅為DeepResearch成本的十分之一。如果Manus團隊加強其服務器基礎設施，我可以預見這個工具將成為單個用戶的首選，特別是白領專業人士、獨立開發者和小型團隊。

最後，我認為Manus的工作過程更具透明度和協作性是非常有價值的。它在過程中主動提出問題，並將關鍵指示保留為“知識”以供未來使用，從而實現易於自定義的代理體驗。每個會話還可以重播和分享，這也相當不錯。

我預計會繼續在個人和專業生活中使用Manus處理各種任務。雖然我不確定將其與DeepSeek進行比較是否完全正確，但這進一步證明了中國的AI公司不僅僅是在追隨西方對手的腳步。它們不僅在基礎模型上進行創新，還在以自己的方式積極塑造自主AI代理的採用。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

中國AI「Manus」實測：勁過ChatGPT？未來AI助手有幾掂？

🔥 CHATGPT PLUS 帳戶出租

chatgpt

中國AI「Manus」實測：勁過ChatGPT？未來AI助手有幾掂？

🔥 CHATGPT PLUS 帳戶出租

chatgpt

Related Articles

一次過玩盡AI工具！終身訂閱限時優惠

遊戲設計靈感：從經典到未來新視野！

AI醫療新突破：Claude智能整合健康記錄助理