巴西醫考實測：GPT-4o領跑大型語言模型表現分析

zero comment

Ai Finance Tech

大型語言模型於巴西外國醫學畢業生醫學資格再認證考試表現比較

應用前景概述

本研究展示大型語言模型（LLMs）於醫學教育的潛力，尤其在自動生成葡萄牙語醫學解釋及練習材料方面。這些模型亦可助於開發決策支援工具，為診斷和治療提供初步建議。

摘要

本文比較多款大型語言模型於2017至2024年六屆巴西醫學資格再認證考試（Revalida）選擇題上的表現。研究涵蓋能處理巴西葡萄牙語的開源模型（如LLaMA 3.1、Qwen 2.5及其DeepSeek-R1推理變種），以及商業開放存取模型（GPT-3.5、GPT-4o、Gemini）。根據官方答案評分，GPT-4o表現最佳，平均正確率達63.85%。其後，GPT-4o針對2024年考卷作答及解釋，三位註冊醫生獨立審核後，一致認同其臨床推理。再者，GPT-4o為過往（2017–2023）正確答案生成的解釋被整理成知識庫，進一步用於GPT-4o的檢索增強生成（RAG）及LLaMA 3.1的微調，兩者於2024年考試均有明顯進步。儘管表現理想，這些模型仍存在回應不穩、幻覺現象及高風險情境下可靠性有限等問題，因此其答案應始終由專業人士覆核。人類專業知識在臨床決策及醫學教育中仍不可或缺。不過，將過往考題內容整合於模型，顯示領域適應策略有助減少部分限制，提高模型對應度。

1. 引言

資訊及通訊科技（ICTs）於現代醫療中舉足輕重，不僅提升行政效率，亦改善臨床服務，例如電子處方及電子病歷。人工智能（AI）更成為醫療決策支援的重要工具，當中自然語言處理（NLP）讓電腦理解及生成自然語言，推動AI於醫療應用發展。

大型語言模型（LLMs）建基於transformer架構，透過龐大語料學習語言規律，能生成符合語境的內容。現時主流有OpenAI的ChatGPT、微軟Copilot、Google Gemini，以及Meta的LLaMA、阿里巴巴Qwen等開源選擇。這些生成式模型廣泛應用於聊天機械人、虛擬助理、內容創作及翻譯等。

生成式LLMs在臨床決策支援及醫學教育等領域潛力巨大，可協助醫護人員獲取最新醫學資訊，亦能為學生及非專業人士提供度身訂造的學習材料。

巴西政府每年舉辦Revalida考試，確保外國醫學畢業生具備本地行醫資格。此考試涵蓋專業醫學詞彙、臨床指引及公共衛生概念，是檢驗LLMs於高要求醫療語境下表現的理想基準。

本研究評估多款LLMs於Revalida六屆考題上的表現，涵蓋開源模型（LLaMA 3.1、Qwen 2.5及其推理變種）及商業模型（GPT-3.5、GPT-4o、Gemini）。同時，亦分析最佳模型（GPT-4o）解釋答案的能力，由三位醫生審核其推理是否符合醫學實踐。最後，研究亦探討以GPT-4o生成的解釋作知識庫，進一步微調模型，檢視領域適應對表現的提升。

2. 相關研究

近期多國已有研究探討LLMs於醫學資格考試的表現。美國USMLE、中國CNMLE、德國國家醫學考試等，GPT-3.5及GPT-4均曾參與評測。美國研究發現GPT-3.5已能通過USMLE，中國則顯示GPT-4於中英文考卷均能及格，GPT-3.5僅於英文版通過。德國則發現GPT-4正確率高達88.1%，勝過大部分考生。對於巴西Revalida，過往研究僅評估過GPT-4於2022年考卷，正確率達87.7%，但於部分被撤銷題目表現較差。

本研究的獨特之處在於同時比較多款開源及商業模型，並涵蓋六屆考試，為現時最全面的葡語醫學考試LLMs評測。研究亦質性分析GPT-4o的解釋，並探討以考題知識庫微調模型的成效。

3. 材料與方法

研究分六階段進行：收集2017–2024年Revalida考題、篩選適用題目、將771條選擇題輸入七款LLMs（零樣本提示）、記錄答案並與官方標準答案比對、由三位醫生審核GPT-4o於2024年考題的解釋、最後以GPT-4o過往考題解釋建立知識庫，分別用於RAG及微調LLaMA，再於2024年考題檢測表現提升。

3.1. 資料收集

研究選取2017至2024年共1000條Revalida選擇題。每屆考試通常包括100條選擇題及5條論述題，論述題未納入本研究。

3.2. 資料預備

篩選時剔除帶有圖片或表格的題目（因部分LLMs不支援多模態輸入），以及被官方撤銷的題目。最終771條題目用於量化分析，2024年考卷則選取86條作解釋分析。

3.3. 模型評估

共評估七款模型：四款開源小型LLMs（7–8B參數，包括LLaMA 3.1、Qwen 2.5及其DeepSeek-R1推理版），三款商業開放存取LLMs（GPT-3.5、GPT-4o、Gemini）。開源模型於Google Colab以NVIDIA Tesla T4 GPU及Unsloth 4-bit量化運行，商業模型則透過網頁或API存取。

所有模型均採用零樣本提示，模擬考生只憑自身知識作答。開源模型直接輸入題目，商業模型則以簡單指令如「你能回答醫學領域的健康問題嗎？」作開場，確保回應聚焦醫療主題。為減少偏差，商業模型由兩位研究員獨立輸入題目，並分別記錄答案。

商業LLM初始提示範例

3.4. 表現指標

主要以正確率（命中率）及fallback指數（模型未能理解題目、答案不符選項時的比例）評估LLMs表現。正確率為正確答案數佔總題數的比例。

編輯評論與啟發性觀點

這項研究對AI於醫學教育和專業考試應用的前景提供了寶貴洞見。首先，GPT-4o於葡語醫學考試的正確率雖然超過六成，但距離傳統醫學生或執業醫生的標準仍有明顯差距，這反映即使語言模型在多國語境下進步神速，專業知識的本地化和精準度仍是重大挑戰。值得注意的是，研究不僅檢視了答案正確性，更由專業醫生質性評估模型推理過程，這一層次的審視對於AI醫療應用的實際可行性至關重要。

另一個重要發現是，將過往考題解釋納入知識庫，無論作為檢索增強還是微調基礎，都能明顯提升模型表現。這說明「領域適應」策略能有效彌補通用LLMs於高專業門檻場景的不足。對香港甚至華語醫學教育界而言，這啟示我們在推動AI協助考試或臨床決策時，必須強調本地化語料與專業知識的積累，而非單靠國際主流大模型。

然而，研究亦坦誠指出，現階段LLMs於高風險醫療場景仍不可靠，幻覺現象、答題不穩等問題未能根治。這提醒我們，AI雖可作為教育輔助或質量監控工具，但在臨床決策、專業認證等嚴肅場合，專業人士的把關依然不可替代。

更值得深思的是，這次比較涵蓋開源與商業模型，突顯開源模型於資源有限地區推廣數碼醫療教育的潛力。香港醫學教育若能善用本地語言與專業知識，結合開源AI工具，或可突破資源瓶頸，提升培訓質素。

總結而言，這項研究不僅為AI如何融入醫學考試提供了實證，也為全球醫學教育界思考AI本地化、專業化和倫理審查三大方向提供了啟發。未來，如何平衡AI自動化與人類專業判斷，將是醫學AI發展的核心議題。

Download TXT

#informatics alibaba alicloud artificialintelligence health

巴西醫考實測：GPT-4o領跑大型語言模型表現分析

🔥 CHATGPT PLUS 帳戶出租

chatgpt

巴西醫考實測：GPT-4o領跑大型語言模型表現分析

🔥 CHATGPT PLUS 帳戶出租

chatgpt

Related Articles

巴西股市收市微升0.29% 公用事業股領漲

AI生成未成年性化圖像 爆安全漏洞大爭議

CES 2026首遇AI智能性愛機械人Emily！

AI生成未成年性化圖像爆安全漏洞大爭議