醫療推理首款商用AI模型登場！

zero comment

生物科技

約翰·斯諾實驗室推出首個可商用醫療推理大型語言模型於NVIDIA GTC大會

這些新模型專為臨床推理而優化，能夠清晰表達其思考過程，並應用醫學推薦的規劃和決策過程。

2025年3月20日 09:00 ET | 來源：約翰·斯諾實驗室

美國特拉華州路易斯，2025年3月20日（GLOBE NEWSWIRE）—— 約翰·斯諾實驗室，專注於醫療保健的人工智能公司，今天宣布推出醫療LLM推理器，這是迄今為止首個可商用的醫療專用推理大型語言模型（LLM）。這些模型不僅僅是傳統LLM的知識回憶，而是代表了AI驅動的醫療問題解決的一個重大進步，能夠在複雜的診斷、運營和規劃決策中，有意義地協助醫療專業人員。

該模型的訓練過程受到deepseek-r1的啟發，通過強化學習引入自我反思能力。該公司在NVIDIA GTC 2025大會上發布醫療LLM推理器，並使用NVIDIA工具進行開發。

臨床推理在醫療保健中的重要性

臨床推理是醫療保健的核心，涵蓋了醫生用來評估病人、考慮證據和做出決策的認知過程。約翰·斯諾實驗室的醫療推理模型旨在模擬臨床實踐中的三種常見推理模式：

1. 演繹推理 – 系統性地將臨床指南、協議和既定醫學知識應用於特定的病人情境。
2. 歸納推理 – 識別個別病人案例中的模式，並生成有關潛在原因或聯繫的假設。
3. 溯因推理 – 在信息有限的情況下，做出最合理的推斷，這在對病人進行時間敏感的決策時尤為重要。

這些模型受益於針對推理優化的訓練數據集、混合訓練方法、醫療決策樹整合和自我一致性驗證層。它們能夠詳細闡述其思考過程，考慮多個假設，系統性地評估證據，並透明地解釋結論。醫療LLM推理器能夠同時跟踪多個變量、假設和證據點，而不會失去上下文。

模型性能與運行環境

醫療LLM推理器有兩個版本，分別為14B和32B，兩者均具備32k的上下文窗口。32B模型在OpenMed基準測試中平均得分為82.57%，而14B模型則為80.04%，並且能夠清晰表達導致每個答案的思考過程。這些得分超過了Qwen2.5（82.02%）和R1（79.40%）的32B推理模型。這些模型在數學推理基準（32B模型得分81.5%）和BigBench-Hard（14B模型得分64.8%）上也表現良好。醫療推理LLM設計為在每個客戶的基礎設施內私密運行，無需調用第三方API，簡化了對機密醫療信息的合規性要求。

訓練過程在一個NVIDIA H100加速的伺服器集群上進行，並使用了多個NVIDIA軟件庫，包括NCCL以便在分佈式訓練中高效進行多GPU通信，以及TensorRT進行推理優化和部署測試。

新基準的開發與責任AI的承諾

儘管現有的基準有效地測量醫療知識，但對臨床實踐中至關重要的複雜推理能力的評估卻不夠充分。為了解決這一問題，約翰·斯諾實驗室正在開發新的專門基準，針對臨床推理、一致性、安全性和不確定性量化，進一步推進其對負責任AI的承諾。

對於醫療LLM推理器的更多信息，請訪問：https://www.johnsnowlabs.com/healthcare-llm/

關於約翰·斯諾實驗室

約翰·斯諾實驗室是一家專注於醫療保健的人工智能公司，提供最先進的軟件、模型和數據，幫助醫療和生命科學組織有效利用AI。該公司開發了醫療LLMS、醫療自然語言處理（NLP）、Spark NLP、無代碼平台的生成AI實驗室和醫療聊天機器人，獲獎的醫療AI軟件為全球領先的製藥公司、學術醫療中心和健康科技公司提供支持。作為NLP峰會的創辦人和主辦方，該公司致力於進一步教育和推進全球AI社區。

編輯評論

約翰·斯諾實驗室此次推出的醫療LLM推理器無疑是在醫療AI領域的一次重大突破。這不僅顯示了AI在臨床推理中的潛力，還彰顯了其在提升醫療質量和效率方面的應用前景。隨著醫療行業對數據驅動決策的依賴日益增加，這類模型能夠提供更為精確的診斷支持和決策建議，將對醫療專業人員的工作方式產生深遠影響。

然而，值得注意的是，儘管這些模型在推理能力上有顯著提升，但仍需謹慎對待其在實際應用中的可靠性和安全性。醫療AI的發展不僅需要技術的創新，還需要在倫理、合規和患者隱私等方面的全面考量。未來，如何平衡技術進步與道德責任將是醫療AI發展的重要課題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。