AI挑戰醫生律師咩行業最易被取代？

zero comment

人工智能正學習取代醫生、律師及顧問的工作

現時人工智能（AI）正逐步掌握律師、醫生、金融分析師和管理顧問等專業人士日常處理的任務。舉例來說，有AI系統能根據九種不同的多媒體資料，為一名六歲小孩作出診斷；另一個系統則提供音樂家遺產的法律意見；還有AI可以為醫療科技公司的部分資產作出估值。

一間名為Mercor的公司，自稱為每一家頂尖AI企業提供「專家數據」，他們投入超過50萬美元，設計出200個測試任務，檢驗AI是否能在法律、醫療、金融和管理顧問等領域，完成具高經濟價值的知識工作。Mercor於周三發布了名為「AI生產力指數」（APEX）的報告，聯合作者包括前麥肯錫全球董事總經理、哈佛商學院前院長及哈佛法學院教授，分別為測試內容的設計和範圍提供專業諮詢。Mercor的22歲CEO Brendan Foody表示，APEX的特色是「非常深入」，致力全面界定成為顧問、銀行家、醫生或律師的真正含義。

為了設計這些測試任務，Mercor聘請了來自高盛、摩根大通、麥肯錫、波士頓顧問集團、Latham & Watkins律師行及Mount Sinai醫院等機構的白領專業人士。這些專家平均擁有超過7年工作經驗，在Mercor的薪酬與他們過往的高級職位相若。Mercor網站上顯示，普通專家時薪約81美元，高級領域專家更可達200美元以上，換算年薪約40萬美元。前美銀投資銀行分析師Matt Seck表示：「從薪酬角度看，這是難以想像的高薪時薪工作。」

長久以來，業界用標準測試來評估AI能力，但直接以AI完成具經濟價值工作的表現來量化，則是一次「範式轉移」，該報告作者之一Osvald Nitski說。Nitski形容，若AI在Mercor的基準測試中取得滿分100%，就代表這台「機器分析師」能完全達到合夥人或董事總經理的工作要求。

雖然AI模型尚未達至理想水平，但進步迅速。OpenAI 於2024年5月推出的GPT-4o，在該基準中得分35.9%；一年多後的GPT-5則躍升至64.2%，成為最高分。需要澄清的是，64.2%的分數並不是代表GPT-5能產出64.2%的人類工作價值，因為未達100%的成果「可能根本無用」。GPT-5只在200個任務中，兩項取得滿分，分別來自法律和投資銀行，涉及的主要是基本推理、簡單計算和大量資訊搜尋。

即使AI模型達到100%分數，也未必能完美取代人類專業人士。Mercor的任務聚焦於「範圍明確的交付成果」，例如診斷病情或建立財務模型，較少涉及開放式問題，因為後者可能有多個正確答案。這意味著任務描述中必須包含大量假設，確保AI的輸出明確且具體。此外，AI的輸出純粹為文字，未測試它們是否能像人類一樣操作電腦。Mercor表示，未來版本的APEX會解決這些限制。前述的Matt Seck亦指出，為AI編寫長篇提示詞，比直接做任務本身更費時。

儘管如此，有跡象顯示AI模型正逐漸具備與人類競爭的能力。OpenAI於2025年9月25日發布另一基準測試，結果顯示專家評審在220項任務中，近47.6%情況下更偏好AI的表現，任務涵蓋設計銷售宣傳冊及評估皮膚病變圖像。OpenAI同時發現，其模型在短短一年多內的「勝率」對人類翻倍提升。

隨著模型能力增強，測試任務的複雜度及設計者的專業要求也水漲船高。早期的AI測試多為抽象的推理謎題或考試題目，甚至依賴廉價群眾外包工作者提供資料。至2023年，博士生已被要求設計生物、物理和化學的多選題。2025年9月，Elon Musk旗下的xAI據報裁減500名「通才」數據標註員，轉向優先聘用「專家」標註員。雖然低薪數據工人仍對AI模型發展有貢獻，但設計高端基準測試所需的技能和報酬門檻，正迅速提高。

Nitski坦言，直接衡量AI在具經濟價值任務上的效用非常困難。金融和顧問領域的成功標準，比軟件工程更難界定。即使標準明確，要大規模評分AI輸出，也不如軟件工程中用自動化測試判斷程式碼運行正確般簡單。這亦解釋了為何自2023年起已有針對軟件工程的AI效用測試，但其他白領領域的測試則相對落後。不過，隨著AI改進，AI自身也協助解決複雜任務評分問題。Mercor的任務成功標準由專家制定，但評分由AI完成，與人類評分一致率達89%，有效擴大評估規模。

建立基準不僅是為了了解模型表現，更是推動AI進步的重要工具。Foody指出：「評估與訓練使用相同類型數據，良好的測試會促使AI在該測試上取得進展。」例如AI於2016年已能打敗圍棋高手，2023年起開始以真實軟件工程任務評估AI，兩年後初級程式員的就業數據開始顯得令人懷疑。

Foody總結說：「AI已經取得博士學位，現在開始正式進入職場。」

—

評論與啟示

這篇報導清晰描繪了AI在專業知識密集型領域的快速進展，並透過具體量化的基準測試，展現AI在法律、醫療、金融及顧問工作上的潛力與限制。最值得注意的是，這些基準不再是抽象的智力測試，而是真實世界中具經濟價值的任務，這代表AI從「能做什麼」向「能做多少有價值的工作」邁進。

然而，AI現階段的表現仍不夠成熟，尤其在需要綜合判斷、多方權衡和靈活應變的複雜任務上，仍難以取代人類。這提醒我們，AI的輔助角色更可能是「增強」而非「替代」，尤其在需要倫理判斷和人性關懷的醫療及法律領域。

報導中提到，AI評分的高度自動化與專家標準的結合，顯示未來AI評估和培訓將更為高效，這也將推動AI能力快速提升。但同時，設計這些高端任務的專業人士薪酬高企，意味著AI發展背後仍依賴大量人類專業知識，這是AI普及的潛在瓶頸。

對香港而言，這種AI技術的進步既是機遇也是挑戰。專業服務行業可能面臨結構性變革，從業者需積極轉型，提升跨領域能力，學習如何與AI協同工作。政府和企業也應及早制定規範和培訓計劃，確保AI技術合理應用，保障就業及服務質量。

總括而言，AI正逐步「拿到博士學位」，開始進入職場，但AI是否能成為真正的「專業同事」，還需時間和更多實際驗證。這不僅是技術問題，更涉及倫理、法律和社會結構的深刻變革，值得香港社會各界持續關注和深入討論。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

AI挑戰醫生律師咩行業最易被取代？

chatgpt

🔥 CHATGPT PLUS 帳戶出租

AI挑戰醫生律師 咩行業最易被取代？

chatgpt

Related Articles

蘋果AI針搶先出擊 對撼OpenAI？

YouTube短片用AI面容 創作新時代黎啦！

AI傾偈機助情緒？研究揭抑鬱焦慮風險！

🔥 CHATGPT PLUS 帳戶出租

AI挑戰醫生律師咩行業最易被取代？

蘋果AI針搶先出擊對撼OpenAI？

YouTube短片用AI面容　創作新時代黎啦！