AI同人類齊心協力 提升工作完成率70%

Ai




人工智能代理獨立完成專業任務表現不佳,但與人類專家合作效率提升70%

根據全球最大自由職業平台Upwork於11月13日公布的最新研究,現時由最先進語言模型驅動的人工智能(AI)代理,單獨完成即使是簡單的專業工作也經常失敗。然而,研究同時發現一條更具希望的發展路徑:當AI代理與人類專家合作時,項目完成率可提升高達70%,暗示未來的工作模式或非人機對立,而是強強聯手。

這份研究基於超過300個真實客戶在Upwork平台上發布的項目,首次系統性評估了人類專業知識如何增強AI代理在實際工作中的表現,而非只依賴模擬或理論測試。這挑戰了業界對全自動AI代理的過度炒作,也打破了AI將迅速取代知識工作者的恐慌。

Upwork的首席技術官Andrew Rabinovich接受獨家訪問時表示:「AI代理其實並不『能幹』,即表現未如理想。但當與專業人類合作時,項目完成率大幅提升,支持我們堅信未來工作將由人與AI協作完成,人類的直覺和領域專長依然不可或缺。」

AI代理在300多個真實自由職業工作中的表現及挑戰

Upwork的「人類+代理生產力指數(HAPI)」評估了三大AI系統——Google的Gemini 2.5 Pro、OpenAI的GPT-5,以及Anthropic的Claude Sonnet 4——在寫作、數據科學、網頁開發、工程、銷售及翻譯等多個範疇的真實付費項目中的成效。

研究刻意選擇了價格低於500美元、簡單且明確的工作,這類工作佔整個Upwork服務總額不到6%,反映目前AI的能力仍有限。Rabinovich坦言:「即使我研究AI已25年,看到過不少突破,但這些代理仍不夠能幹。當工作複雜度提升,他們根本無法應付。我們特意選擇較簡單任務,讓代理有機會表現。」

即使在這些簡化任務上,AI代理獨自工作仍表現掙扎。但有了專業自由職業者平均每次約20分鐘的反饋後,AI的表現隨著每輪迭代大幅提升。

人類反饋20分鐘,AI完成率最高提升70%

研究顯示,AI代理在不同類型工作的表現有明顯差異。以數據科學和分析為例,Claude Sonnet 4獨立完成率為64%,但有專家反饋後升至93%。銷售及市場營銷方面,Gemini 2.5 Pro由17%提升至31%。OpenAI的GPT-5在工程及建築任務中,完成率由30%躍升至50%。

這種趨勢普遍存在於各類工作中,尤其是需要創意和編輯判斷的質性工作,如寫作、翻譯和市場推廣,完成率每輪反饋可增加達17個百分點。

這結果挑戰了AI業界一個根深柢固的假設:獨立測試的代理基準能準確反映現實表現。

Rabinovich說:「我們證明了代理獨立完成任務時表現平平,但與人類合作,表現卻有驚人提升。這不只是一次來回,而是越多反饋,代理越能提升。」

為何ChatGPT能考高考卻數不清「strawberry」中R的個數?

這項研究正值AI業界面對測量標準危機。傳統基準測試如SAT和數學奧林匹克考試,AI模型可輕鬆拿滿分,但這些考試對預測其現實能力幫助不大。

Rabinovich指出:「大型語言模型進步後,這些靜態學術數據集已經飽和。你可能讓ChatGPT考滿分,但它卻可能答錯‘strawberry’中有多少個R。」

AI系統在正式考試中表現出色,卻在簡單日常問題出錯的現象,令外界對AI能力產生懷疑。儘管其他公司也測試過AI代理在Upwork任務上的表現,但只衡量了其獨立完成度,未涉及與人類合作的潛力。

Upwork強調:「我們希望評估這些代理在實際有經濟價值的工作上的質素,並且探討與人類合作的效果,因為我們早已知道獨立完成時他們不夠先進。」

人機協作經濟學:付錢請專家反饋仍然省錢

即使需要多輪人類每次約20分鐘的反饋,與人類獨自完成相比,整體所需時間仍差距巨大。Rabinovich表示,一般項目人類獨立完成可能需數天,結合AI的迭代方式則能在數小時內完成。

經濟效益不只於時間節省。Upwork報告2025年第三季AI相關工作收入同比增長53%,成為公司主要業務增長動力之一。但公司高層強調,AI不是取代自由職業者,而是提升他們的能力。

Upwork財務總監Erica Gessert表示:「外界曾擔心AI會搶走工作,尤其是自由職業者的,但實際情況相反。」

公司策略是讓自由職業者專注於更複雜高價值的工作,將例行重複性任務交給AI。「自由職業者其實喜歡能自動處理繁瑣工作的工具,專注於創意和構思部分。」

Rabinovich認為,AI將改造而非取代工作:「簡單任務會被自動化,但整體工作量和收入會隨之增加。」

AI編碼代理表現優秀,但創意寫作和翻譯仍需人類

研究顯示,AI系統在有明確正確答案的「確定性和可驗證」任務上表現最佳,如數學題或基礎編碼。「大部分編碼任務相似,代理因此進步迅速。」

在Upwork測試中,網頁開發、手機應用開發及數據科學項目(尤其是結構化計算工作)中,代理獨立完成率最高。Claude Sonnet 4獨立完成68%網頁開發及64%數據科學項目,Gemini 2.5 Pro在某些技術任務中達74%。

但質性工作挑戰更大。要求設計網站版面、撰寫市場推廣文案或文化細膩的翻譯時,代理缺乏專家指導難以勝任。Rabinovich說:「寫詩質量主觀,評分標準由人類定,存在一定變異。」

寫作、翻譯及銷售市場項目在有專家反饋後完成率提升最明顯,寫作工作可提升17個百分點,工程及建築類創意解決問題項目則提升23個百分點。

這反映AI擅長模式匹配和複製,但在創意、判斷和上下文理解上仍有不足,正是高價值專業工作所需技能。

研究內幕:Upwork如何用同行評審科學方法測試AI代理

Upwork聯同平台上的頂尖自由職業者,對AI代理的每個交付成果進行評估,無論是獨立完成還是經過人類反饋。評估者制定詳細標準,判斷項目是否符合工作說明的核心要求,並在多次迭代中打分。

評估只聚焦客觀完成標準,排除主觀風格或質素判斷,避免混淆市場真實支付意願。研究指出,這種基於標準的完成率不等同於真實市場中是否獲付費,而是衡量達到明確需求的能力。

此研究經過雙盲同行評審,獲頂尖AI會議NeurIPS接納,Upwork將於12月初發表完整結果。公司計劃公開方法論和基準測試,並持續更新任務庫,防止代理過度記憶特定任務。

Rabinovich說:「這個基準將成為一個活生生的平台,代理可在所有工作類別自我評估,任務會不斷更新,防止過度擬合。」

Upwork的AI策略:打造「Uma」元代理協調人類與AI工作者

這項研究直接指導Upwork的產品路線,助力公司迎接「AI時代及其後」的挑戰。Upwork不打算自己打造完成特定任務的AI代理,而是開發「Uma」——一個「元協調代理」,負責協調人類工作者、AI系統與客戶。

Rabinovich解釋:「現時Upwork是客戶尋找自由職業者的平台,未來將擴展為客戶與Uma溝通,這個元協調代理會識別所需人才,確保任務完成並交付。」

在這個願景中,客戶主要與Uma互動,而非直接聘請自由職業者。AI系統會分析項目需求,分配哪些任務需人類專業,哪些可由AI執行,協調工作流程並確保質量,充當智能項目經理,而非替代工作者。

「我們不打算讓代理直接完成任務,而是讓Uma決定需要哪些人類和代理人才來完成工作,評估交付成果,協調人機互動,並從平台上的互動中學習如何高效拆解任務。」

公司計劃於2026年第四季在葡萄牙里斯本開設首個國際辦公室,專注AI基礎設施建設和技術招聘。此舉跟隨Upwork因AI驅動產品創新及AI技能需求強勁帶來的破紀錄第三季業績。

OpenAI、Anthropic與Google競逐自動代理,但現實仍落後炒作

Upwork的研究發布之際,OpenAI、Anthropic、Google及多家新創公司正競相開發能應付複雜多步任務的自主代理,涵蓋訂機票、財務分析、軟件編寫等。

但近期多宗高調失誤令熱潮降溫。AI代理常誤解指令、犯邏輯錯誤或生成錯誤答案,學界稱之為「幻覺」。實際表現與示範視頻差距甚大。

Rabinovich說:「其他平台測試AI代理完成Upwork任務,結果不樂觀。即使最先進的語言模型驅動的代理,也難以與人類匹敵,完成率偏低。」

Upwork不等AI完全成熟,選擇混合方式,發揮AI速度、規模及模式識別優勢,同時保留人類判斷、創意和上下文理解。

這理念延伸至AI學習與提升。現有模型主要靠互聯網靜態數據及人類偏好反饋訓練,但大多數專業工作屬質性,AI難以自行判斷成果優劣。

Rabinovich強調:「除非有人機合作,人類做老師,機器做學生探索新解決方案,否則不可能進步。Upwork獨特地創造這環境,與自動駕駛不同,錯誤成本低,學習機會巨大。」

AI會搶走你的工作嗎?證據指向更複雜的答案

儘管公眾常擔憂AI取代工作,Rabinovich認為歷史告訴我們情況更複雜,雖轉型可能帶來衝擊。

他說:「公眾認為AI會消滅寫作、翻譯、編碼等工作,但沒人談到它創造了大量新工作。就像電力和蒸汽機一樣,雖取代部分職業,卻創造數量遠超的職位,我們相信AI也會如此。」

研究指出,AI監督相關的新職種崛起,包括設計人機工作流程、提供高質反饋提升代理表現,以及驗證AI產出質素。這些技能如提示工程、代理監督、結果驗證,兩年前幾乎不存在,現已成為Upwork等平台的熱門高薪技能。

Rabinovich說:「人類新技能正成形,包括如何設計人機互動、引導代理提升,最終驗證代理建議是否正確,這對推動AI進步至關重要。」

問題是這轉型——從親自執行任務到監督任務——能否快速創造機會,彌補現有工作的流失。對Upwork自由職業者來說,答案或已在收入數字中浮現:AI相關工作年增53%,即使失業恐慌充斥媒體頭條。

評論與啟示

這份Upwork的實證研究為AI在職場的應用提供了難得的理性視角,打破了「AI即將取代人類工作」的二元對立思維。它指出,現階段AI代理獨立完成專業任務仍有明顯不足,但與人類專家的互動合作卻能顯著提升效能,這暗示未來工作模式將是人機協作而非互相競爭。

這種合作模式強調人類直覺、判斷和創意仍不可替代,尤其在質性和創意工作中更是關鍵。AI擅長處理結構化、重複性高的任務,從而解放人類專注更高層次的思考和創造。這種分工不僅提升效率,更有望創造全新職業機會,尤其是在AI監督、提示工程和質量驗證等新興領域。

同時,Upwork打造的「Uma」元代理概念,試圖以AI協調者身份促進人機協同,這是未來數字勞動市場的一個新範式。這種智能管理能更靈活地調配人力與AI資源,兼顧效率與質量,減少人機摩擦。

然而,研究也提醒我們,AI現有能力仍有限,尤其在判斷力、文化理解和創意表達上,AI依賴人類反饋才能不斷進步。這對香港等高度依賴創意及專業服務的市場尤其重要,意味著AI不會簡單替代人類,而是促使人類技能升級與轉型。

此外,這份研究的科學嚴謹性和公開透明亦為業界樹立標杆,促使未來AI評估不再只看理論和標準化測試,而是回歸真實工作情境,這有助於避免過度炒作與誤導。

總括而言,Upwork的研究不僅為AI與未來工作關係帶來新啟發,也為香港及全球勞動市場提供重要參考:擁抱人機協作,培育新技能,才能在AI浪潮中立於不敗之地。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🔥 CHATGPT PLUS 帳戶出租

唔使外國信用卡、送埋 VPN,輕鬆即用!

1個月 HK$118|1年 HK$1288|獨立帳號 🎁

💳 支援 PayMe / 轉數快 / Alipay / 信用卡

✨ 我哋亦可以代升級你的帳戶!

🚀 即刻睇詳情