AI同人類齊心協力　提升工作完成率70%

zero comment

人工智能代理獨立完成專業任務表現不佳，但與人類專家合作效率提升70%

根據全球最大自由職業平台Upwork於11月13日公布的最新研究，現時由最先進語言模型驅動的人工智能（AI）代理，單獨完成即使是簡單的專業工作也經常失敗。然而，研究同時發現一條更具希望的發展路徑：當AI代理與人類專家合作時，項目完成率可提升高達70%，暗示未來的工作模式或非人機對立，而是強強聯手。

這份研究基於超過300個真實客戶在Upwork平台上發布的項目，首次系統性評估了人類專業知識如何增強AI代理在實際工作中的表現，而非只依賴模擬或理論測試。這挑戰了業界對全自動AI代理的過度炒作，也打破了AI將迅速取代知識工作者的恐慌。

Upwork的首席技術官Andrew Rabinovich接受獨家訪問時表示：「AI代理其實並不『能幹』，即表現未如理想。但當與專業人類合作時，項目完成率大幅提升，支持我們堅信未來工作將由人與AI協作完成，人類的直覺和領域專長依然不可或缺。」

AI代理在300多個真實自由職業工作中的表現及挑戰

Upwork的「人類+代理生產力指數（HAPI）」評估了三大AI系統——Google的Gemini 2.5 Pro、OpenAI的GPT-5，以及Anthropic的Claude Sonnet 4——在寫作、數據科學、網頁開發、工程、銷售及翻譯等多個範疇的真實付費項目中的成效。

研究刻意選擇了價格低於500美元、簡單且明確的工作，這類工作佔整個Upwork服務總額不到6%，反映目前AI的能力仍有限。Rabinovich坦言：「即使我研究AI已25年，看到過不少突破，但這些代理仍不夠能幹。當工作複雜度提升，他們根本無法應付。我們特意選擇較簡單任務，讓代理有機會表現。」

即使在這些簡化任務上，AI代理獨自工作仍表現掙扎。但有了專業自由職業者平均每次約20分鐘的反饋後，AI的表現隨著每輪迭代大幅提升。

人類反饋20分鐘，AI完成率最高提升70%

研究顯示，AI代理在不同類型工作的表現有明顯差異。以數據科學和分析為例，Claude Sonnet 4獨立完成率為64%，但有專家反饋後升至93%。銷售及市場營銷方面，Gemini 2.5 Pro由17%提升至31%。OpenAI的GPT-5在工程及建築任務中，完成率由30%躍升至50%。

這種趨勢普遍存在於各類工作中，尤其是需要創意和編輯判斷的質性工作，如寫作、翻譯和市場推廣，完成率每輪反饋可增加達17個百分點。

這結果挑戰了AI業界一個根深柢固的假設：獨立測試的代理基準能準確反映現實表現。

Rabinovich說：「我們證明了代理獨立完成任務時表現平平，但與人類合作，表現卻有驚人提升。這不只是一次來回，而是越多反饋，代理越能提升。」

為何ChatGPT能考高考卻數不清「strawberry」中R的個數？

這項研究正值AI業界面對測量標準危機。傳統基準測試如SAT和數學奧林匹克考試，AI模型可輕鬆拿滿分，但這些考試對預測其現實能力幫助不大。

Rabinovich指出：「大型語言模型進步後，這些靜態學術數據集已經飽和。你可能讓ChatGPT考滿分，但它卻可能答錯‘strawberry’中有多少個R。」

AI系統在正式考試中表現出色，卻在簡單日常問題出錯的現象，令外界對AI能力產生懷疑。儘管其他公司也測試過AI代理在Upwork任務上的表現，但只衡量了其獨立完成度，未涉及與人類合作的潛力。

Upwork強調：「我們希望評估這些代理在實際有經濟價值的工作上的質素，並且探討與人類合作的效果，因為我們早已知道獨立完成時他們不夠先進。」

人機協作經濟學：付錢請專家反饋仍然省錢

即使需要多輪人類每次約20分鐘的反饋，與人類獨自完成相比，整體所需時間仍差距巨大。Rabinovich表示，一般項目人類獨立完成可能需數天，結合AI的迭代方式則能在數小時內完成。

經濟效益不只於時間節省。Upwork報告2025年第三季AI相關工作收入同比增長53%，成為公司主要業務增長動力之一。但公司高層強調，AI不是取代自由職業者，而是提升他們的能力。

Upwork財務總監Erica Gessert表示：「外界曾擔心AI會搶走工作，尤其是自由職業者的，但實際情況相反。」

公司策略是讓自由職業者專注於更複雜高價值的工作，將例行重複性任務交給AI。「自由職業者其實喜歡能自動處理繁瑣工作的工具，專注於創意和構思部分。」

Rabinovich認為，AI將改造而非取代工作：「簡單任務會被自動化，但整體工作量和收入會隨之增加。」

AI編碼代理表現優秀，但創意寫作和翻譯仍需人類

研究顯示，AI系統在有明確正確答案的「確定性和可驗證」任務上表現最佳，如數學題或基礎編碼。「大部分編碼任務相似，代理因此進步迅速。」

在Upwork測試中，網頁開發、手機應用開發及數據科學項目（尤其是結構化計算工作）中，代理獨立完成率最高。Claude Sonnet 4獨立完成68%網頁開發及64%數據科學項目，Gemini 2.5 Pro在某些技術任務中達74%。

但質性工作挑戰更大。要求設計網站版面、撰寫市場推廣文案或文化細膩的翻譯時，代理缺乏專家指導難以勝任。Rabinovich說：「寫詩質量主觀，評分標準由人類定，存在一定變異。」

寫作、翻譯及銷售市場項目在有專家反饋後完成率提升最明顯，寫作工作可提升17個百分點，工程及建築類創意解決問題項目則提升23個百分點。

這反映AI擅長模式匹配和複製，但在創意、判斷和上下文理解上仍有不足，正是高價值專業工作所需技能。

研究內幕：Upwork如何用同行評審科學方法測試AI代理

Upwork聯同平台上的頂尖自由職業者，對AI代理的每個交付成果進行評估，無論是獨立完成還是經過人類反饋。評估者制定詳細標準，判斷項目是否符合工作說明的核心要求，並在多次迭代中打分。

評估只聚焦客觀完成標準，排除主觀風格或質素判斷，避免混淆市場真實支付意願。研究指出，這種基於標準的完成率不等同於真實市場中是否獲付費，而是衡量達到明確需求的能力。

此研究經過雙盲同行評審，獲頂尖AI會議NeurIPS接納，Upwork將於12月初發表完整結果。公司計劃公開方法論和基準測試，並持續更新任務庫，防止代理過度記憶特定任務。

Rabinovich說：「這個基準將成為一個活生生的平台，代理可在所有工作類別自我評估，任務會不斷更新，防止過度擬合。」

Upwork的AI策略：打造「Uma」元代理協調人類與AI工作者

這項研究直接指導Upwork的產品路線，助力公司迎接「AI時代及其後」的挑戰。Upwork不打算自己打造完成特定任務的AI代理，而是開發「Uma」——一個「元協調代理」，負責協調人類工作者、AI系統與客戶。

Rabinovich解釋：「現時Upwork是客戶尋找自由職業者的平台，未來將擴展為客戶與Uma溝通，這個元協調代理會識別所需人才，確保任務完成並交付。」

在這個願景中，客戶主要與Uma互動，而非直接聘請自由職業者。AI系統會分析項目需求，分配哪些任務需人類專業，哪些可由AI執行，協調工作流程並確保質量，充當智能項目經理，而非替代工作者。

「我們不打算讓代理直接完成任務，而是讓Uma決定需要哪些人類和代理人才來完成工作，評估交付成果，協調人機互動，並從平台上的互動中學習如何高效拆解任務。」

公司計劃於2026年第四季在葡萄牙里斯本開設首個國際辦公室，專注AI基礎設施建設和技術招聘。此舉跟隨Upwork因AI驅動產品創新及AI技能需求強勁帶來的破紀錄第三季業績。

OpenAI、Anthropic與Google競逐自動代理，但現實仍落後炒作

Upwork的研究發布之際，OpenAI、Anthropic、Google及多家新創公司正競相開發能應付複雜多步任務的自主代理，涵蓋訂機票、財務分析、軟件編寫等。

但近期多宗高調失誤令熱潮降溫。AI代理常誤解指令、犯邏輯錯誤或生成錯誤答案，學界稱之為「幻覺」。實際表現與示範視頻差距甚大。

Rabinovich說：「其他平台測試AI代理完成Upwork任務，結果不樂觀。即使最先進的語言模型驅動的代理，也難以與人類匹敵，完成率偏低。」

Upwork不等AI完全成熟，選擇混合方式，發揮AI速度、規模及模式識別優勢，同時保留人類判斷、創意和上下文理解。

這理念延伸至AI學習與提升。現有模型主要靠互聯網靜態數據及人類偏好反饋訓練，但大多數專業工作屬質性，AI難以自行判斷成果優劣。

Rabinovich強調：「除非有人機合作，人類做老師，機器做學生探索新解決方案，否則不可能進步。Upwork獨特地創造這環境，與自動駕駛不同，錯誤成本低，學習機會巨大。」

AI會搶走你的工作嗎？證據指向更複雜的答案

儘管公眾常擔憂AI取代工作，Rabinovich認為歷史告訴我們情況更複雜，雖轉型可能帶來衝擊。

他說：「公眾認為AI會消滅寫作、翻譯、編碼等工作，但沒人談到它創造了大量新工作。就像電力和蒸汽機一樣，雖取代部分職業，卻創造數量遠超的職位，我們相信AI也會如此。」

研究指出，AI監督相關的新職種崛起，包括設計人機工作流程、提供高質反饋提升代理表現，以及驗證AI產出質素。這些技能如提示工程、代理監督、結果驗證，兩年前幾乎不存在，現已成為Upwork等平台的熱門高薪技能。

Rabinovich說：「人類新技能正成形，包括如何設計人機互動、引導代理提升，最終驗證代理建議是否正確，這對推動AI進步至關重要。」

問題是這轉型——從親自執行任務到監督任務——能否快速創造機會，彌補現有工作的流失。對Upwork自由職業者來說，答案或已在收入數字中浮現：AI相關工作年增53%，即使失業恐慌充斥媒體頭條。

—

評論與啟示

這份Upwork的實證研究為AI在職場的應用提供了難得的理性視角，打破了「AI即將取代人類工作」的二元對立思維。它指出，現階段AI代理獨立完成專業任務仍有明顯不足，但與人類專家的互動合作卻能顯著提升效能，這暗示未來工作模式將是人機協作而非互相競爭。

這種合作模式強調人類直覺、判斷和創意仍不可替代，尤其在質性和創意工作中更是關鍵。AI擅長處理結構化、重複性高的任務，從而解放人類專注更高層次的思考和創造。這種分工不僅提升效率，更有望創造全新職業機會，尤其是在AI監督、提示工程和質量驗證等新興領域。

同時，Upwork打造的「Uma」元代理概念，試圖以AI協調者身份促進人機協同，這是未來數字勞動市場的一個新範式。這種智能管理能更靈活地調配人力與AI資源，兼顧效率與質量，減少人機摩擦。

然而，研究也提醒我們，AI現有能力仍有限，尤其在判斷力、文化理解和創意表達上，AI依賴人類反饋才能不斷進步。這對香港等高度依賴創意及專業服務的市場尤其重要，意味著AI不會簡單替代人類，而是促使人類技能升級與轉型。

此外，這份研究的科學嚴謹性和公開透明亦為業界樹立標杆，促使未來AI評估不再只看理論和標準化測試，而是回歸真實工作情境，這有助於避免過度炒作與誤導。

總括而言，Upwork的研究不僅為AI與未來工作關係帶來新啟發，也為香港及全球勞動市場提供重要參考：擁抱人機協作，培育新技能，才能在AI浪潮中立於不敗之地。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

AI同人類齊心協力　提升工作完成率70%

🔥 CHATGPT PLUS 帳戶出租

chatgpt

AI同人類齊心協力 提升工作完成率70%

🔥 CHATGPT PLUS 帳戶出租

chatgpt

Related Articles

AI神器一站式比較＋終身訂閱優惠

iPad新瀏覽器Beam 打造桌面級體驗！

AI監管迎新篇：由人控轉AI控全面革新

AI同人類齊心協力　提升工作完成率70%