研究揭示:人工智能獨立完成專業工作成效有限 與人類專家合作完成率提升七成
根據全球最大自由職業平台Upwork於本週四發佈的突破性研究報告,當今最先進的語言模型驅動的人工智能(AI)代理,獨自完成連基本專業任務都經常失敗。不過,研究同時發現,當AI代理與人類專家協同工作時,項目完成率可提升高達70%,顯示未來工作模式不會是人機對立,而是人機協作,創造更強大的工作效能。
這項研究基於超過300個來自Upwork平台的真實客戶項目,為首次系統性評估人類專業知識如何放大AI代理在實際專業工作中的表現,而非僅在合成測試或學術模擬中。研究挑戰了市場對完全自主AI的過度炒作,以及對此技術即將取代知識工作者的恐慌。
Upwork技術長兼AI與機器學習主管Andrew Rabinovich接受專訪時表示:「AI代理的自主能力其實有限,但當與專家人類合作時,項目完成率明顯提升,我們堅信未來的工作將由人類與AI攜手合作完成,人的直覺與領域專長仍扮演關鍵角色。」
AI代理在300多個真實自由職業任務的表現及其困難
Upwork的人類+代理生產力指數(HAPI)評估了三大領先AI系統——Google的Gemini 2.5 Pro、OpenAI的GPT-5,以及Anthropic的Claude Sonnet 4——在寫作、數據科學、網頁開發、工程、銷售和翻譯等多個類別的真實付費客戶項目中的表現。
值得注意的是,Upwork特意挑選了簡單且定義明確的項目,讓AI代理有合理成功機會。這些項目價格均低於500美元,僅佔平台總服務量不到6%,反映AI當前能力的限制。
Rabinovich指出:「儘管我們研究AI已超過25年,且見證重大突破,但這些代理的自主能力仍然有限。若任務更複雜,AI完全無法解決。因此我們特別選擇較簡單的任務,讓代理能有所作為。」
即使是這些簡化任務,AI獨立作業仍然吃力;但當專業自由職業者提供平均每輪僅20分鐘的反饋時,AI的表現隨著迭代明顯提升。
20分鐘人類反饋助AI完成率提升七成
研究展現AI代理在不同工作類別中,有無人類指導下的表現差異巨大。數據科學與分析任務中,Claude Sonnet 4獨立完成率為64%,但經過人類專家反饋後飆升至93%。在銷售與市場營銷領域,Gemini 2.5 Pro的完成率從17%提升至31%。OpenAI的GPT-5在工程與建築任務中,完成率從30%跳升至50%。
這種趨勢幾乎遍及所有類別,AI在需質性創意判斷的工作如寫作、翻譯及市場推廣等,對人類反饋特別敏感,完成率每輪反饋可提高達17個百分點。
此發現挑戰了AI業界一個根深蒂固的假設:孤立評測的代理表現能準確預測現實世界表現。
Rabinovich說:「我們證明了在獨立執行的任務中,AI代理表現與公開結果相似,但與人類合作時,表現驚人地提升。這不只是一次來回互動,越多反饋,代理越能進步。」
為何ChatGPT考SAT高分卻數不清「strawberry」中的R字數?
這項研究發表之際,AI業界正面臨評估標準危機。傳統基準測試如SAT或數學奧林匹克考試,AI模型常能取得滿分,但這些靜態、學術式數據集對實際能力的預測能力極差。
Rabinovich形容:「大型語言模型進步後,這些靜態學術數據集已經飽和。你可能讓ChatGPT考SAT考滿分,但問它『strawberry』中有幾個R,它卻答錯。」
這種AI能通過正式考試卻在簡單現實問題上犯錯的現象,令外界對AI能力產生懷疑。雖然有其他機構也曾測試AI代理在Upwork任務上的表現,但均只評估孤立表現,未觸及Upwork研究所揭示的人機協作潛力。
Rabinovich強調:「我們想評估AI代理在真實工作中帶來的經濟價值,不只看它們的獨立表現,更看它們與人類合作時的表現,因為我們早已知道單打獨鬥的代理並不先進。」
人機協作經濟學:為何付錢給專家反饋仍可節省成本?
儘管需要多輪人類反饋,每輪約20分鐘,但這仍遠低於人類獨立完成整個項目的時間。Rabinovich說:「一個項目若由自由職業者獨立完成,可能需數天,但人類與AI代理協作,透過自動化與專家精修的迭代,可在數小時內交付成果。」
這不僅是節省時間,Upwork報告指出2025年第三季AI相關工作量同比增長53%,成為公司增長的強勁動力。但管理層謹慎表態,強調AI不是替代自由職業者,而是提升他們的工作能力。
Upwork財務總監Erica Gessert表示:「市場曾擔心AI會取代所有工作,尤其是自由職業者這類非永久性勞動力,但事實正好相反。」
Rabinovich補充說:「AI將自動化簡單任務,但工作本身會變得更複雜,任務數量與收入將同步提升。自由職業者喜歡工具替他們自動化繁瑣重複的工作,讓他們專注於創意與概念部分。」
AI編碼代理表現突出 創意寫作與翻譯仍需人類介入
研究顯示AI在「確定性且可驗證」的任務——如解數學題、寫基礎程式碼——表現最佳。Rabinovich說:「大部分編碼任務彼此相似,這也是編碼代理快速進步的原因。」
在測試中,網頁開發、手機應用開發與數據科學等結構化計算任務的獨立完成率最高。Claude Sonnet 4獨立完成68%網頁開發與64%數據科學項目,Gemini 2.5 Pro在某些技術任務達74%。
但質性工作如網站設計、行銷文案撰寫和文化細膩度的翻譯,代理若無專家指導即表現不佳。Rabinovich說:「寫詩的質量極具主觀性,評估標準由人類制定,代表著表現有變異性。」
寫作、翻譯及市場推廣項目從人類反饋中獲益最明顯,完成率提升最多達17個百分點。需要創意思維的工程與建築項目,在人類監督下提升達23個百分點。
這顯示AI擅長模式匹配與複製,但在創意、判斷與上下文理解上仍有不足,正是高價值專業工作的核心技能。
研究內幕:Upwork如何用嚴謹科學方法測試AI代理
Upwork與其平台上的頂尖自由職業者合作,對AI代理產出的每份成果進行評估,無論是獨立完成或經人類反饋後。評估者制定詳細的評分標準,判斷項目是否符合工作描述中的核心要求,並對多輪輸出進行打分。
評估只聚焦客觀完成標準,排除風格偏好或質量判斷等主觀因素。研究指出:「基於評分標準的完成率不應被視為代理在真實市場中會否獲付費的衡量,而是其完成明確要求的能力指標。」
這一點很重要:AI代理可能技術上完成所有要求,卻仍產出客戶認為不合格的作品。反之,客戶滿意度——市場成功的真實標準——目前仍難以量化。
該研究經過雙盲同行評審,已獲頂級AI學術會議NeurIPS接納,Upwork將於12月初發表完整結果,並計劃公開方法論與基準測試,定期更新任務池,避免AI代理過度記憶任務。
Rabinovich說:「這個基準將是活生生的平台,代理能在所有工作類別自我評估,任務會不斷更新,防止過度擬合。」
Upwork AI策略:打造統籌人類與AI工作者的「元代理」Uma
這項研究直接影響Upwork的產品路線圖,助力公司迎接「AI時代及其後」。Upwork不打算自行打造完成特定任務的AI代理,而是開發「元統籌代理」Uma,協調人類工作者、AI系統與客戶間的合作。
Rabinovich解釋:「現在Upwork是個客戶找自由職業者完成工作的市場,未來將擴展為客戶與Uma這個元統籌代理溝通,Uma判斷所需人才,完成任務並交付成果。」
在這個願景中,客戶主要與Uma互動,而非直接聘請自由職業者。AI系統會分析項目需求,判斷哪些任務需人類專業,哪些由AI執行,協調工作流程並確保品質,猶如智能項目經理,而非取代工作者。
Rabinovich說:「我們不是要建立能獨立完成任務的代理,而是打造這個元統籌代理,判斷完成任務所需人類與代理人才,評估成果並協調人機互動,從平台上的互動中學習如何拆分任務,確保及時有效完成。」
Upwork近期宣布計劃於2026年第四季在葡萄牙里斯本設立首個國際辦公室,專注AI基礎設施建設與技術招聘。此舉跟隨公司第三季創紀錄的成績,部分得益於AI驅動的產品創新與對具AI技能人才的強勁需求。
OpenAI、Anthropic與Google競逐自主代理 現實表現落後炒作
Upwork的研究結果發表時,OpenAI、Anthropic、Google及多家初創企業正激烈競爭開發能處理複雜多步任務的自主AI代理,涵蓋從訂票、金融分析到軟件編寫等多方面。
然而,近期多起高調失誤削弱了最初熱情。AI代理常誤解指令、犯邏輯錯誤,或自信滿滿地產出錯誤結果,學界稱之為「幻覺」現象。示範影片與真實可靠表現之間仍有巨大差距。
Rabinovich表示:「有些來自OpenAI和其他平台的評估顯示,代理即使搭載最先進的大型語言模型,完成率仍相當低,無法與人類匹敵。」
Upwork不願坐等AI完全成熟——時間難料——而是押注混合策略,結合AI的速度、規模與模式識別優勢,與人類的判斷、創意和情境理解。
這種理念也延伸至學習與改進。當前AI模型主要基於網路靜態數據訓練,輔以人類偏好反饋,但多數專業工作屬質性,AI缺乏專家評估難以判斷產出優劣。
Rabinovich說:「除非有機器當學生、人類當老師的合作,否則無法實現真正進步。Upwork獨特地提供這種環境,跟自駕車不同,如果誤導Waymo車避開交通標誌,後果嚴重,但Upwork錯了網站不會帶來大損失,卻有巨大學習機會。」
AI會搶你飯碗嗎?證據指向更複雜的答案
雖然公眾討論多聚焦AI取代工作,Rabinovich認為歷史經驗並非如此,儘管過渡期可能產生擾動。
他說:「公眾認為AI消滅寫作、翻譯、編碼等數字工作,但沒人談論AI會創造的海量新工作。發明電力和蒸汽機時固然取代部分工作,但新職位數量成指數增長,我們相信AI也會如此。」
研究指出新興職能聚焦AI監督:設計人機協作流程、提供高質反饋以提升代理表現、驗證AI產出品質。這些技能兩年前幾乎不存在,如今在Upwork等平台身價不菲。
Rabinovich強調:「人類新技能是設計人機互動、指導代理提升與驗證代理建議正確性,這是推動AI進步的必要條件。」
問題是這種從執行任務轉向監督的轉變,是否能像破壞既有職位般迅速創造機會。對Upwork的自由職業者來說,答案或許已反映在收入上:AI相關工作年增53%,儘管媒體充斥AI失業恐慌。
—
評論與啟示:
這份由Upwork發表的實證研究,為現時AI在職場中的角色提供了最具說服力的現實檢驗。它打破了「AI將全面取代人類工作」的單線敘事,展現了人機協作的巨大潛力與必要性。特別是在複雜、多變、需要創意判斷的專業領域,AI仍無法脫離人類專業知識的輔助。
研究中揭示的「20分鐘人類反饋顯著提升AI表現」的事實,正好點出未來職場中「人+機」共生體系的核心:人類提供判斷、調整與創意,AI則負責重複性、計算量大和模式識別任務。這不僅能提升效率,同時也讓人類工作者得以轉向更有價值的創造性工作。
對香港及全球的勞動市場來說,這意味著教育與培訓體系需重新設計,強調人機協作技能、AI監督和批判性思維,讓勞動力能在AI生態中找到新的定位與機會。
同時,Upwork「元代理」Uma的構想,預示未來工作平台將不再是單純的媒合市場,而是智能協調中心,負責分派任務、整合資源和保障成果品質。這種模式若成功,將大幅改變自由職業與外判產業的運作方式,帶來更高效且靈活的工作體驗。
然而,研究也提醒我們,AI在創意性和文化敏感度高的領域仍有明顯短板,這些領域短期內仍需人類深度介入,避免過度依賴AI導致質量下降或文化誤判。
最後,這份研究的嚴謹科學方法與公開透明態度,為AI技術的實際應用建立了重要基準,也為業界提供了評估AI真實價值的參考標準。未來,持續更新的動態基準測試將成為推動AI持續進步的關鍵。
總結來說,Upwork的研究不只揭示了AI的局限,更指明了人機協作的光明前景,為全球職場的轉型提供了寶貴的實證依據與啟示。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。