醫院AI轉錄工具竟「虛構」病歷內容!

Ai

醫院使用容易產生幻覺的OpenAI模型來進行轉錄工具

研究人員發現,當遇到沉默時,Whisper經常會編造整段文字。

幾個月前,我的醫生展示了一個AI轉錄工具,他用來記錄和總結與病人的會面。對我來說,總結還算不錯,但據ABC新聞報道,研究人員發現OpenAI的Whisper並不總是如此可靠——它有時會完全編造內容。

Whisper被一家公司名為Nabla用於醫療轉錄工具,據ABC新聞報道,該工具預計已轉錄了700萬次醫療對話。該媒體指出,超過30,000名臨床醫生和40個健康系統使用這項技術。據報道,Nabla知道Whisper會產生幻覺,並正在「解決這個問題。」

來自康奈爾大學、華盛頓大學及其他機構的研究小組在一項研究中發現,Whisper在大約1%的轉錄中會產生幻覺,並在錄音中的沉默期間編造整個句子,有時是帶有暴力情緒或荒謬的短語。研究人員在研究中收集了TalkBank的AphasiaBank的音頻樣本,他們指出,當患有語言障礙的失語症患者說話時,沉默是特別常見的。

其中一位研究人員,康奈爾大學的Allison Koenecke,在一個參與研究的討論中發布了如下的例子。

研究人員發現,幻覺還包括虛構的醫療狀況或短語,這些短語你可能會在YouTube視頻中看到,例如「感謝您的觀看!」(據報道,OpenAI曾經用超過一百萬小時的YouTube視頻來訓練GPT-4。)

該研究於六月在巴西的計算機機械學會FAccT會議上展示。目前尚不清楚它是否經過同行評審。

相關內容
我們必須停止忽視AI的幻覺問題
Meta因AI聲稱特朗普集會槍擊事件未發生而受到指責
為什麼Google建議我們在披薩上塗膠水?

OpenAI發言人Taya Christianson向The Verge發送了一份聲明:

我們非常重視這個問題,並不斷努力改進,包括減少幻覺。對於在我們的API平台上使用Whisper,我們的使用政策禁止在某些高風險決策環境中使用,並且我們的模型卡片對開源使用在高風險領域的建議中包括避免使用。我們感謝研究人員分享他們的發現。

編輯評論

在醫療領域使用AI技術無疑能夠提升效率和準確性,但這篇文章揭示了在實際應用中,我們必須非常謹慎。Whisper在遇到沉默時編造內容的能力,讓人反思AI在處理複雜情境時的局限性。特別是在醫療這種對準確性要求極高的領域,任何錯誤都有可能導致嚴重後果。

這也引發了對AI訓練數據的質疑。OpenAI使用YouTube視頻來訓練模型,這可能導致模型在特定情境下表現不佳。因此,未來的AI開發應更加注重訓練數據的多樣性和相關性,以降低出錯風險。

最後,這篇報道強調了透明度的重要性。OpenAI和類似公司需要更加公開地處理這些技術問題,並與醫療機構合作,確保技術的安全使用。這不僅是技術挑戰,更是一種倫理責任。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *