AI代理人出問題:GPT-5真係救星?
踏入2025年,OpenAI行政總裁Sam Altman大力推廣兩項他認為會改變生活的技術發展。其一係備受期待嘅大型語言模型(LLM)新版本——GPT-5,係支持ChatGPT走紅嘅核心技術嘅重大升級。另一個就係AI代理人,唔單止回應你嘅提問,而係真正幫你完成工作。Altman喺年初嘅一篇文章中話:「我哋相信2025年,首批AI代理人將會加入職場,實質改變企業嘅產出。」
不過,現時已經過咗八個月,Altman嘅預測好似需要打個大大嘅星號。確實,企業好積極採用AI代理人,例如OpenAI嘅ChatGPT代理人。根據2025年5月嘅一份報告,全球大型顧問公司PwC調查發現有一半企業計劃喺年底前實施某種AI代理人方案,而88%嘅高層希望增加團隊AI預算,因為AI代理人看似有潛力。
但實際使用體驗又如何?對唔住,對於所有抱有期望嘅企業高層,評價幾乎係一致負面。
如果「AI代理人」係一部新嘅高科技詹姆斯邦德電影,Rotten Tomatoes嘅評語可能會係:「故障頻頻、表現不穩」(Wired)、「表現就好似一個上網新手」(Fast Company)、「現實遠不及炒作」(Fortune)、「唔配合炒作嘅buzzwords」(Bloomberg)同「新一代嘅空頭支票,過度承諾嚴重」(Forbes)。
研究揭示OpenAI代理人失敗率驚人
2025年5月,卡內基美隆大學嘅一份研究報告指出,谷歌Gemini Pro 2.5喺真實辦公室任務中失敗率達70%,已經係表現最好嘅代理人;而OpenAI用GPT-4.0推動嘅代理人失敗率超過90%。
GPT-5可能會改善呢個數字,但唔代表好得幾多。唔單止因為早期報告指出OpenAI喺GPT-5升級上遇到困難,未必有足夠改進值得升級至5.0版本。
研究人員開始認為,代理人學習完成任務嘅過程本身就有根本問題。正如一位AI代理人工程師分析,問題喺於數學原理:錯誤會隨時間累積,做嘅任務越多,錯誤越嚴重。多任務嘅AI代理人容易出現「幻覺」現象(即虛假信息),呢點係所有AI嘅共同問題。
最終,部分代理人會「驚慌失措」,導致「判斷出現災難性錯誤」。例如Replit嘅一個AI代理人,喺處理編程任務9日後竟然刪除咗客戶嘅數據庫,Replit行政總裁稱此事「不可接受」。
2025年唔止一次有AI代理人誤刪代碼嘅事件,令一間創業公司開始提供AI代理人「失控保險」,而零售巨頭沃爾瑪更要引入四名「超級代理人」嚟管理佢哋嘅AI代理人系統。
唔奇得Gartner最近一份報告預測,未來兩年內會有超過40%企業啟動嘅AI代理人項目被取消。該報告指出,多數AI代理人項目係受炒作驅動而誤用,令企業忽視咗部署代理人嘅真正成本同複雜性。
GPT-5能為AI代理人帶來咩改變?
ChatGPT代理人喺搭載GPT-5後有機會成為可靠度榜首(但門檻唔高)。不過新版本未必能解決代理人領域嘅根本問題。
因為企業同監管機構已經開始設置種種限制,限制咗即使最可靠嘅AI代理人能為用戶做到嘅事。
例如全球最大零售商亞馬遜,雖然喺AI代理人技術上講得頭頭是道(今年7月上海AI代理人展會亦有展示),但佢哋已經禁止任何AI代理人喺網站上瀏覽或購物。
亞馬遜咁做係想保持顧客體驗嘅控制權,同時確保廣告同贊助內容只展示畀真人睇。但同時,呢舉動亦大大限制咗代理人嘅活動空間。(好處係避免咗因代理人操作錯誤而引起嘅交付災難。)
此外,我哋真係信得過AI代理人幫我哋網購?問題唔係佢哋邪惡想偷你信用卡資料,而係佢哋太天真,容易被壞人誘騙,成為釣魚攻擊嘅目標。
就算GPT-5都未必能破解一項研究指出嘅漏洞:嵌入圖像嘅數據可以指示AI代理人洩露任何信用卡資料,而用戶全無察覺。
如果呢類問題喺企業層面被大規模利用,Altman關於AI代理人「實質改變產出」嘅說法可能真係會實現,但結果未必係佢原本想像嘅咁。
—
評論與啟示
AI代理人理論上係未來工作自動化嘅重要突破,但目前技術同實踐距離理想仍有相當距離。從多個角度睇,AI代理人嘅問題不單止係技術本身嘅不穩定,仲反映咗整個生態系統嘅矛盾——企業急於部署新技術提升效率,但技術本身未成熟,監管又開始施壓,令發展空間縮窄。
GPT-5即使推出,短期內都未必能徹底解決代理人錯誤累積、幻覺頻發等根本問題。更重要嘅係,AI代理人究竟應該喺咩範圍內運作,企業同監管如何平衡創新與風險,係未來發展嘅關鍵。
同時,AI代理人安全風險亦不可忽視。信用卡資料洩漏等漏洞暴露出AI系統對惡意攻擊嘅脆弱性,提醒業界必須加強安全設計,否則一旦大規模推廣,帶嚟嘅損失可能遠超預期。
香港作為國際金融中心,對AI技術嘅監管同應用尤其需要謹慎。企業唔應盲目追逐潮流,而係要深入了解技術限制,做好風險評估,確保AI真正成為提升生產力嘅工具,而唔係帶來混亂同損失嘅禍根。
未來AI代理人嘅發展,或許唔係單靠單一大型語言模型升級就可以解決,而係需要多技術融合、嚴謹監管同用戶教育三管齊下,才能真正實現「智能助理」嘅美好願景。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放
