六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

巴西醫考實測:GPT-4o領跑大型語言模型表現分析




大型語言模型於巴西外國醫學畢業生醫學資格再認證考試表現比較

應用前景概述

本研究展示大型語言模型(LLMs)於醫學教育的潛力,尤其在自動生成葡萄牙語醫學解釋及練習材料方面。這些模型亦可助於開發決策支援工具,為診斷和治療提供初步建議。

摘要

本文比較多款大型語言模型於2017至2024年六屆巴西醫學資格再認證考試(Revalida)選擇題上的表現。研究涵蓋能處理巴西葡萄牙語的開源模型(如LLaMA 3.1、Qwen 2.5及其DeepSeek-R1推理變種),以及商業開放存取模型(GPT-3.5、GPT-4o、Gemini)。根據官方答案評分,GPT-4o表現最佳,平均正確率達63.85%。其後,GPT-4o針對2024年考卷作答及解釋,三位註冊醫生獨立審核後,一致認同其臨床推理。再者,GPT-4o為過往(2017–2023)正確答案生成的解釋被整理成知識庫,進一步用於GPT-4o的檢索增強生成(RAG)及LLaMA 3.1的微調,兩者於2024年考試均有明顯進步。儘管表現理想,這些模型仍存在回應不穩、幻覺現象及高風險情境下可靠性有限等問題,因此其答案應始終由專業人士覆核。人類專業知識在臨床決策及醫學教育中仍不可或缺。不過,將過往考題內容整合於模型,顯示領域適應策略有助減少部分限制,提高模型對應度。

1. 引言

資訊及通訊科技(ICTs)於現代醫療中舉足輕重,不僅提升行政效率,亦改善臨床服務,例如電子處方及電子病歷。人工智能(AI)更成為醫療決策支援的重要工具,當中自然語言處理(NLP)讓電腦理解及生成自然語言,推動AI於醫療應用發展。

大型語言模型(LLMs)建基於transformer架構,透過龐大語料學習語言規律,能生成符合語境的內容。現時主流有OpenAI的ChatGPT、微軟Copilot、Google Gemini,以及Meta的LLaMA、阿里巴巴Qwen等開源選擇。這些生成式模型廣泛應用於聊天機械人、虛擬助理、內容創作及翻譯等。

生成式LLMs在臨床決策支援及醫學教育等領域潛力巨大,可協助醫護人員獲取最新醫學資訊,亦能為學生及非專業人士提供度身訂造的學習材料。

巴西政府每年舉辦Revalida考試,確保外國醫學畢業生具備本地行醫資格。此考試涵蓋專業醫學詞彙、臨床指引及公共衛生概念,是檢驗LLMs於高要求醫療語境下表現的理想基準。

本研究評估多款LLMs於Revalida六屆考題上的表現,涵蓋開源模型(LLaMA 3.1、Qwen 2.5及其推理變種)及商業模型(GPT-3.5、GPT-4o、Gemini)。同時,亦分析最佳模型(GPT-4o)解釋答案的能力,由三位醫生審核其推理是否符合醫學實踐。最後,研究亦探討以GPT-4o生成的解釋作知識庫,進一步微調模型,檢視領域適應對表現的提升。

2. 相關研究

近期多國已有研究探討LLMs於醫學資格考試的表現。美國USMLE、中國CNMLE、德國國家醫學考試等,GPT-3.5及GPT-4均曾參與評測。美國研究發現GPT-3.5已能通過USMLE,中國則顯示GPT-4於中英文考卷均能及格,GPT-3.5僅於英文版通過。德國則發現GPT-4正確率高達88.1%,勝過大部分考生。對於巴西Revalida,過往研究僅評估過GPT-4於2022年考卷,正確率達87.7%,但於部分被撤銷題目表現較差。

本研究的獨特之處在於同時比較多款開源及商業模型,並涵蓋六屆考試,為現時最全面的葡語醫學考試LLMs評測。研究亦質性分析GPT-4o的解釋,並探討以考題知識庫微調模型的成效。

3. 材料與方法

研究分六階段進行:收集2017–2024年Revalida考題、篩選適用題目、將771條選擇題輸入七款LLMs(零樣本提示)、記錄答案並與官方標準答案比對、由三位醫生審核GPT-4o於2024年考題的解釋、最後以GPT-4o過往考題解釋建立知識庫,分別用於RAG及微調LLaMA,再於2024年考題檢測表現提升。

3.1. 資料收集

研究選取2017至2024年共1000條Revalida選擇題。每屆考試通常包括100條選擇題及5條論述題,論述題未納入本研究。

3.2. 資料預備

篩選時剔除帶有圖片或表格的題目(因部分LLMs不支援多模態輸入),以及被官方撤銷的題目。最終771條題目用於量化分析,2024年考卷則選取86條作解釋分析。

3.3. 模型評估

共評估七款模型:四款開源小型LLMs(7–8B參數,包括LLaMA 3.1、Qwen 2.5及其DeepSeek-R1推理版),三款商業開放存取LLMs(GPT-3.5、GPT-4o、Gemini)。開源模型於Google Colab以NVIDIA Tesla T4 GPU及Unsloth 4-bit量化運行,商業模型則透過網頁或API存取。

所有模型均採用零樣本提示,模擬考生只憑自身知識作答。開源模型直接輸入題目,商業模型則以簡單指令如「你能回答醫學領域的健康問題嗎?」作開場,確保回應聚焦醫療主題。為減少偏差,商業模型由兩位研究員獨立輸入題目,並分別記錄答案。

商業LLM初始提示範例

3.4. 表現指標

主要以正確率(命中率)及fallback指數(模型未能理解題目、答案不符選項時的比例)評估LLMs表現。正確率為正確答案數佔總題數的比例。

編輯評論與啟發性觀點

這項研究對AI於醫學教育和專業考試應用的前景提供了寶貴洞見。首先,GPT-4o於葡語醫學考試的正確率雖然超過六成,但距離傳統醫學生或執業醫生的標準仍有明顯差距,這反映即使語言模型在多國語境下進步神速,專業知識的本地化和精準度仍是重大挑戰。值得注意的是,研究不僅檢視了答案正確性,更由專業醫生質性評估模型推理過程,這一層次的審視對於AI醫療應用的實際可行性至關重要。

另一個重要發現是,將過往考題解釋納入知識庫,無論作為檢索增強還是微調基礎,都能明顯提升模型表現。這說明「領域適應」策略能有效彌補通用LLMs於高專業門檻場景的不足。對香港甚至華語醫學教育界而言,這啟示我們在推動AI協助考試或臨床決策時,必須強調本地化語料與專業知識的積累,而非單靠國際主流大模型。

然而,研究亦坦誠指出,現階段LLMs於高風險醫療場景仍不可靠,幻覺現象、答題不穩等問題未能根治。這提醒我們,AI雖可作為教育輔助或質量監控工具,但在臨床決策、專業認證等嚴肅場合,專業人士的把關依然不可替代。

更值得深思的是,這次比較涵蓋開源與商業模型,突顯開源模型於資源有限地區推廣數碼醫療教育的潛力。香港醫學教育若能善用本地語言與專業知識,結合開源AI工具,或可突破資源瓶頸,提升培訓質素。

總結而言,這項研究不僅為AI如何融入醫學考試提供了實證,也為全球醫學教育界思考AI本地化、專業化和倫理審查三大方向提供了啟發。未來,如何平衡AI自動化與人類專業判斷,將是醫學AI發展的核心議題。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

✈️ Trip.com「內地快閃」機票+酒店半價

【每週二 10 AM】 立即領取 半價優惠代碼
最高減 HK$500,CP 值極高,先到先得!

立即搶優惠 🔗