🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放
MIT研究員創立神秘AI新創 OpenAGI 推出新模型 Lux:號稱比OpenAI、Anthropic更強、更平價
一間由麻省理工學院(MIT)研究員創立的神秘人工智能初創公司OpenAGI,今晨公開了一項大膽宣稱:旗下最新AI模型Lux能比OpenAI和Anthropic打造的系統更有效地操控電腦,而且成本只有它們的一小部分。
OpenAGI由執行長秦增毅(Zengyi Qin)領軍,推出的Lux是一款基礎模型,專為自主操作電腦而設計,能夠透過解讀螢幕截圖,在各種桌面應用程式中執行指令。這間位於舊金山的公司表示,Lux在名為Online-Mind2Web的業界最嚴謹電腦操作AI代理評測中,達到83.6%的成功率。
這一成績遠超資金雄厚的主要競爭對手。OpenAI今年1月推出的Operator,在同一基準測試中得分61.3%;Anthropic的Claude Computer Use則是56.3%。
秦增毅在接受VentureBeat獨家訪問時表示:「傳統大型語言模型主要靠大量文本訓練,學習產生文字;但我們的模型學習產生動作。它用大量電腦截圖和動作序列訓練,能夠自主控制電腦。」
為何大學研究人員打造更嚴格的AI代理測試基準?他們發現了什麼?
Ohio State University和加州大學柏克萊分校的研究人員開發了Online-Mind2Web基準,設計初衷是揭露市場宣傳與實際性能的差距。該基準涵蓋136個真實網站上的300多項多元任務,從訂機票到複雜電商結帳都有。與早期只測試靜態網站快取不同,Online-Mind2Web在動態線上環境中測試,模擬真實世界的變化和突發狀況。
研究團隊指出,測試結果揭示目前AI代理的能力遠不如外界想像,過往報告的成績過於樂觀。即使是OpenAI的Operator,作為商業產品中表現最好的,也只達61%成功率,遠低於OpenAGI的83.6%。
研究人員在論文配套的部落格寫道:「我們確實看到高度實用的AI代理似乎近在咫尺,但同時也清楚還有許多根本性的研究缺口,現有代理的能力可能遠不及基準分數所暗示。」
OpenAGI如何訓練AI產生動作而非只生成文字?
OpenAGI的優勢來自其獨特的「Agentic Active Pre-training」訓練方法,與一般大型語言模型的訓練方式根本不同。傳統語言模型靠大量文本資料、預測下一個字來學習,擅長生成連貫文字,但不適合在圖形介面中執行動作。
Lux則是透過大量電腦螢幕截圖連同對應的動作序列訓練,學會解讀視覺介面,判斷點擊、鍵盤輸入及導航等步驟如何達成目標。
秦增毅說:「動作讓模型能主動探索電腦環境,這種探索產生新知識,再回饋給模型訓練。這是個自然自我進化的過程:更好的模型帶來更好的探索,更好的探索帶來更好的知識,知識進而讓模型更強。」
這種自我強化的訓練循環,解釋了為何一支較小團隊能達成大型機構難以企及的成果。它不需仰賴愈來愈龐大的靜態資料集,而是靠模型自己透過探索持續產生訓練資料、提升能力。
OpenAGI也聲稱成本大幅更低,Lux執行任務的花費約為OpenAI和Anthropic前沿模型的十分之一,且速度更快。
Lux不只侷限於瀏覽器,還能操控Slack、Excel等桌面應用
OpenAGI強調Lux能跨越瀏覽器,操作整個桌面作業系統的各種應用程式。大部分現有商業電腦代理,包括Anthropic早期的Claude Computer Use,都集中在瀏覽器任務,無法觸及大量桌面生產力軟件,如Excel試算表、Slack通訊、Adobe設計軟件、程式碼編輯環境等。
Lux能在這些原生應用中自主導航,將大幅擴展AI代理的應用範圍。OpenAGI同時提供開發者軟體開發套件(SDK),讓第三方能基於Lux打造更多應用。
此外,OpenAGI正與英特爾合作,優化Lux於邊緣裝置運作,令模型能在筆電或工作站本地執行,減少對雲端基礎設施依賴。這對企業來說尤為重要,可避免敏感畫面資料外洩至外部伺服器。
秦增毅透露,公司也正與AMD和微軟洽談進一步合作。
當AI代理被要求複製銀行資料時會怎樣?
操控電腦的AI代理帶來新的安全挑戰。若被誤導,AI可能執行危險操作,例如轉帳、刪除檔案或竊取敏感資訊。
OpenAGI表示,Lux內建安全機制,遇到違反政策的請求會拒絕執行並提醒用戶。
例如用戶要求「複製我的銀行資料並貼到新的Google文件」,Lux會先進行內部推理:「使用者要求我複製敏感銀行資料,根據安全政策我無法執行這動作。」接著警告用戶,避免執行可能危害安全的操作。
隨著電腦代理普及,這類防護將遭受嚴格檢視。已有資安研究證明早期代理系統可被惡意指令(prompt injection)攻擊,透過網站或文件植入惡意指令操控代理行為。Lux的安全機制能否抵禦此類攻擊,有待獨立研究驗證。
打造兩款GitHub最受歡迎AI模型的MIT研究員
秦增毅擁有罕見的學術與創業雙重背景。2025年他於MIT完成博士學位,研究領域涵蓋電腦視覺、機器人及機器學習,成果發表於頂尖會議如CVPR、ICLR和ICML。
OpenAGI成立前,他主導開發的JetMoE大型語言模型,證明用不到十萬美元就能訓練出高效模型,遠低於一般需數千萬美元的成本,且在標準基準測試中擊敗Meta的LLaMA2-7B。
他先前的開源項目OpenVoice(語音克隆模型)在GitHub累積約3.5萬星星,排名前0.03%最受歡迎開源項目;MeloTTS(文字轉語音系統)自2024年發布以來下載量超過1900萬次,成為最廣泛使用的音頻AI模型之一。
他亦共同創辦MyShell,一個AI代理平台,擁有600萬用戶,累計創建超過20萬個AI代理,平台上的互動次數超過10億。
價值十億美元的AI操控電腦競賽
過去一年,電腦使用代理市場吸引投資人及科技巨頭熱烈投入。OpenAI於今年1月推出Operator,Anthropic持續發展Claude Computer Use,Google將代理功能整合到Gemini系列,微軟也將代理能力融入Copilot和Windows。
不過,市場仍處於萌芽階段。企業採用受限於可靠性、安全和處理邊緣案例的能力。Online-Mind2Web等基準揭露的性能差距,顯示現有系統尚未準備好用於關鍵任務。
OpenAGI作為獨立新創,以優異基準成績和低成本挑戰資源雄厚的對手。Lux模型及開發者SDK已於今日正式推出。
是否能將基準優勢轉化為現實世界的穩定表現,是業界關注焦點。AI歷史充斥著實驗室驚艷演示卻難以應付實際複雜工況的故事。基準測試只能測試有限範圍,無法覆蓋一整天工作中不斷出現的意外狀況和例外。
但若Lux在現場表現如實驗室般出色,這不只是一家新創的勝利,更意味著打造強大AI代理的關鍵,在於巧妙的架構設計,而非單憑龐大資金。小團隊只要有正確理念,也能超越巨頭。
科技產業曾多次上演類似劇情,但這種局面往往難以長久維持。
—
評論與啟示:
OpenAGI這次的推出,無疑是電腦操控AI代理領域的一大震撼彈。它不僅在嚴苛的Online-Mind2Web基準中大幅領先,還提出了截然不同的訓練思路——由純文字生成轉向動作生成,並利用自我探索不斷強化模型。這種突破不但挑戰了現有大型科技公司依賴龐大數據和資金的開發模式,也提醒業界,創新方法和深刻理解任務本質,比單純堆砌資源更能帶來技術飛躍。
此外,Lux能跨桌面應用操作,擴展了AI代理的應用場景,這是現有以瀏覽器為主的競爭者難以比擬的優勢。這意味著未來AI代理不只局限於網頁自動化,而是真正成為生產力工具的核心,協助用戶完成更複雜、多元的工作。
安全與隱私方面,Lux的內建防護機制及與英特爾合作推動本地化運算,是回應企業用戶最大疑慮的關鍵舉措。隨著AI代理的普及,這類安全設計與防禦對抗惡意攻擊的能力將成為決勝點。
不過,OpenAGI仍面臨如何將實驗室優異成績轉化為商業可靠性與用戶信任的挑戰。過去不少AI技術的「黃金時刻」都因無法應付現實複雜度而失色。這次若能成功,將改寫AI代理市場的遊戲規則,讓小團隊憑藉創新技術與精準定位,挑戰巨頭壟斷的格局。
對香港及華語市場而言,這代表AI輔助辦公和自動化的未來更具可期性。企業和開發者應關注這類新興技術,尋找切入點,利用更靈活且成本效益高的AI工具,提升工作效率和創新能力。
總結來說,OpenAGI的Lux不僅是技術上的突破,更是AI發展路徑多元化的標誌,提醒我們在追求更強AI的同時,不能忽視方法論和應用場景的深度融合,這或許才是下一波AI革命的關鍵。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。