醫院使用容易出現幻覺的OpenAI模型轉錄工具
最近,我的醫生展示了一個AI轉錄工具,用來錄音並總結他的病人會議。在我的情況下,總結還算準確,但據ABC新聞報道,研究人員發現,OpenAI的Whisper並不總是如此——有時候它會完全捏造內容。
據ABC新聞報道,Whisper被一間名叫Nabla的公司用於醫療轉錄工具,據估計已經轉錄了700萬次醫療對話。超過3萬名臨床醫生和40個健康系統使用該工具。據報道,Nabla知道Whisper可能會出現幻覺,並正在“解決這個問題”。
來自康奈爾大學、華盛頓大學等的研究小組在一項研究中發現,Whisper在約1%的轉錄中出現幻覺,甚至在錄音的靜默時段編造出整句有時帶有暴力意味或無意義的短語。研究人員從TalkBank的AphasiaBank收集音頻樣本,指出當患有語言障礙的失語症患者說話時,靜默特別常見。
研究人員之一,康奈爾大學的Allison Koenecke,在一個討論這項研究的線程中發布了例如“感謝您的觀看!”這樣的例子。這些幻覺還包括虛構的醫療狀況或短語,這些短語可能會在YouTube視頻中出現。(據報道,OpenAI曾用超過一百萬小時的YouTube視頻來訓練GPT-4。)
這項研究在六月於巴西舉行的計算機協會FAccT會議上發表。目前尚不清楚是否經過同行評審。
OpenAI發言人Taya Christianson向The Verge發送了一份聲明:
“我們對此問題非常重視,並不斷努力改進,包括減少幻覺。對於在我們API平台上的Whisper使用,我們的使用政策禁止在某些高風險決策情境中使用,對於開源使用的模型卡中,我們也建議避免在高風險領域使用。我們感謝研究人員分享他們的發現。”
評論與反思
這篇文章揭示了AI技術在醫療領域應用中的潛在風險。Whisper作為一個轉錄工具,其幻覺問題可能對醫療決策產生嚴重影響。這提醒我們,無論AI技術多麼先進,都不應忽視其潛在缺陷和風險。醫療行業尤其需要謹慎,因為錯誤的資訊可能直接影響患者的健康和安全。
此外,這也反映出AI訓練數據來源的重要性。使用YouTube視頻訓練可能帶來非專業的語境,導致不準確的轉錄結果。因此,在訓練AI模型時,需要更加注重數據的質量和相關性。
最後,這篇文章強調了持續監控和改進AI技術的重要性。Nabla和OpenAI對問題的認知和改正措施都是必要的步驟。但更重要的是,這些技術應用於實際時,仍需保持人類的監督和干預,以確保其可靠性和安全性。
以上文章由特價GPT API KEY所翻譯