人工智能正學習取代醫生、律師及顧問的工作
現時人工智能(AI)正逐步掌握律師、醫生、金融分析師和管理顧問等專業人士日常處理的任務。舉例來說,有AI系統能根據九種不同的多媒體資料,為一名六歲小孩作出診斷;另一個系統則提供音樂家遺產的法律意見;還有AI可以為醫療科技公司的部分資產作出估值。
一間名為Mercor的公司,自稱為每一家頂尖AI企業提供「專家數據」,他們投入超過50萬美元,設計出200個測試任務,檢驗AI是否能在法律、醫療、金融和管理顧問等領域,完成具高經濟價值的知識工作。Mercor於周三發布了名為「AI生產力指數」(APEX)的報告,聯合作者包括前麥肯錫全球董事總經理、哈佛商學院前院長及哈佛法學院教授,分別為測試內容的設計和範圍提供專業諮詢。Mercor的22歲CEO Brendan Foody表示,APEX的特色是「非常深入」,致力全面界定成為顧問、銀行家、醫生或律師的真正含義。
為了設計這些測試任務,Mercor聘請了來自高盛、摩根大通、麥肯錫、波士頓顧問集團、Latham & Watkins律師行及Mount Sinai醫院等機構的白領專業人士。這些專家平均擁有超過7年工作經驗,在Mercor的薪酬與他們過往的高級職位相若。Mercor網站上顯示,普通專家時薪約81美元,高級領域專家更可達200美元以上,換算年薪約40萬美元。前美銀投資銀行分析師Matt Seck表示:「從薪酬角度看,這是難以想像的高薪時薪工作。」
長久以來,業界用標準測試來評估AI能力,但直接以AI完成具經濟價值工作的表現來量化,則是一次「範式轉移」,該報告作者之一Osvald Nitski說。Nitski形容,若AI在Mercor的基準測試中取得滿分100%,就代表這台「機器分析師」能完全達到合夥人或董事總經理的工作要求。
雖然AI模型尚未達至理想水平,但進步迅速。OpenAI 於2024年5月推出的GPT-4o,在該基準中得分35.9%;一年多後的GPT-5則躍升至64.2%,成為最高分。需要澄清的是,64.2%的分數並不是代表GPT-5能產出64.2%的人類工作價值,因為未達100%的成果「可能根本無用」。GPT-5只在200個任務中,兩項取得滿分,分別來自法律和投資銀行,涉及的主要是基本推理、簡單計算和大量資訊搜尋。
即使AI模型達到100%分數,也未必能完美取代人類專業人士。Mercor的任務聚焦於「範圍明確的交付成果」,例如診斷病情或建立財務模型,較少涉及開放式問題,因為後者可能有多個正確答案。這意味著任務描述中必須包含大量假設,確保AI的輸出明確且具體。此外,AI的輸出純粹為文字,未測試它們是否能像人類一樣操作電腦。Mercor表示,未來版本的APEX會解決這些限制。前述的Matt Seck亦指出,為AI編寫長篇提示詞,比直接做任務本身更費時。
儘管如此,有跡象顯示AI模型正逐漸具備與人類競爭的能力。OpenAI於2025年9月25日發布另一基準測試,結果顯示專家評審在220項任務中,近47.6%情況下更偏好AI的表現,任務涵蓋設計銷售宣傳冊及評估皮膚病變圖像。OpenAI同時發現,其模型在短短一年多內的「勝率」對人類翻倍提升。
隨著模型能力增強,測試任務的複雜度及設計者的專業要求也水漲船高。早期的AI測試多為抽象的推理謎題或考試題目,甚至依賴廉價群眾外包工作者提供資料。至2023年,博士生已被要求設計生物、物理和化學的多選題。2025年9月,Elon Musk旗下的xAI據報裁減500名「通才」數據標註員,轉向優先聘用「專家」標註員。雖然低薪數據工人仍對AI模型發展有貢獻,但設計高端基準測試所需的技能和報酬門檻,正迅速提高。
Nitski坦言,直接衡量AI在具經濟價值任務上的效用非常困難。金融和顧問領域的成功標準,比軟件工程更難界定。即使標準明確,要大規模評分AI輸出,也不如軟件工程中用自動化測試判斷程式碼運行正確般簡單。這亦解釋了為何自2023年起已有針對軟件工程的AI效用測試,但其他白領領域的測試則相對落後。不過,隨著AI改進,AI自身也協助解決複雜任務評分問題。Mercor的任務成功標準由專家制定,但評分由AI完成,與人類評分一致率達89%,有效擴大評估規模。
建立基準不僅是為了了解模型表現,更是推動AI進步的重要工具。Foody指出:「評估與訓練使用相同類型數據,良好的測試會促使AI在該測試上取得進展。」例如AI於2016年已能打敗圍棋高手,2023年起開始以真實軟件工程任務評估AI,兩年後初級程式員的就業數據開始顯得令人懷疑。
Foody總結說:「AI已經取得博士學位,現在開始正式進入職場。」
—
評論與啟示
這篇報導清晰描繪了AI在專業知識密集型領域的快速進展,並透過具體量化的基準測試,展現AI在法律、醫療、金融及顧問工作上的潛力與限制。最值得注意的是,這些基準不再是抽象的智力測試,而是真實世界中具經濟價值的任務,這代表AI從「能做什麼」向「能做多少有價值的工作」邁進。
然而,AI現階段的表現仍不夠成熟,尤其在需要綜合判斷、多方權衡和靈活應變的複雜任務上,仍難以取代人類。這提醒我們,AI的輔助角色更可能是「增強」而非「替代」,尤其在需要倫理判斷和人性關懷的醫療及法律領域。
報導中提到,AI評分的高度自動化與專家標準的結合,顯示未來AI評估和培訓將更為高效,這也將推動AI能力快速提升。但同時,設計這些高端任務的專業人士薪酬高企,意味著AI發展背後仍依賴大量人類專業知識,這是AI普及的潛在瓶頸。
對香港而言,這種AI技術的進步既是機遇也是挑戰。專業服務行業可能面臨結構性變革,從業者需積極轉型,提升跨領域能力,學習如何與AI協同工作。政府和企業也應及早制定規範和培訓計劃,確保AI技術合理應用,保障就業及服務質量。
總括而言,AI正逐步「拿到博士學位」,開始進入職場,但AI是否能成為真正的「專業同事」,還需時間和更多實際驗證。這不僅是技術問題,更涉及倫理、法律和社會結構的深刻變革,值得香港社會各界持續關注和深入討論。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放
