研究人員指出:醫院使用的AI轉錄工具會虛構從未說過的內容
加蘭斯·伯克和希爾克·謝爾曼
美聯社
2024年11月3日 上午10:30
舊金山——科技巨頭OpenAI曾宣稱其人工智能驅動的轉錄工具Whisper擁有接近「人類水平的穩定性和準確性」。然而,Whisper卻存在一個重大缺陷:根據超過十位軟件工程師、開發者和學術研究者的訪談,該工具容易虛構大量文本,甚至整個句子。這些專家表示,這些虛構的文本在行業中被稱為「幻覺」,其中可能包含種族評論、暴力言論,甚至虛構的醫療治療。
專家指出,這類虛構內容的問題在於,Whisper正在全球多個行業中被用來翻譯和轉錄訪談、在流行的消費技術中生成文本以及為視頻創建字幕。更令人擔憂的是,醫療中心急於利用基於Whisper的工具來轉錄患者與醫生的會診,儘管OpenAI已警告該工具不應用於「高風險領域」。
雖然該問題的全貌難以確定,但研究人員和工程師表示,他們在工作中經常遇到Whisper的幻覺。例如,一位密歇根大學的研究人員在進行公共會議研究時,發現他檢查的每十個音頻轉錄中就有八個存在幻覺。在他分析的100多小時Whisper轉錄中,他最初發現約有一半存在幻覺。另一位開發者則表示,他在使用Whisper生成的26,000個轉錄中幾乎每一個都存在幻覺。
即使在錄音質量良好且時間短暫的音頻樣本中,問題依然存在。計算機科學家的一項最新研究發現,在他們檢查的13,000多個清晰音頻片段中,有187個幻覺的例子。
研究人員表示,這一趨勢可能導致數十萬次錯誤的轉錄,對醫療環境而言,這可能會帶來「非常嚴重的後果」。前白宮科技政策辦公室主任阿隆德拉·納爾遲指出:「沒有人希望出現誤診。」她補充道,「應該設立更高的標準。」
Whisper還被用於為聽障人士和有聽力障礙的人創建字幕。這對於這一人群而言,特別容易受到錯誤轉錄的風險,因為他們無法識別這些虛構的內容在其他文本中的「隱藏」。加拉udet大學的技術接入項目主任克里斯蒂安·福格勒表示:「這些虛構內容在大量文本中可能會被混淆。」
OpenAI被敦促解決問題
這些幻覺的普遍性使得專家、倡導者和前OpenAI員工呼籲聯邦政府考慮對AI進行監管。他們表示,至少OpenAI需要解決這一缺陷。
舊金山的研究工程師威廉·桑德斯表示:「如果公司願意優先解決這個問題,這似乎是可以解決的。」他提到,「如果你把這個工具推出去,讓人們對其功能過於自信,並將其整合進其他系統,那就很麻煩了。」
OpenAI的發言人表示,公司持續研究如何減少幻覺的發生,並感謝研究人員的發現,並補充說OpenAI在模型更新中納入了反饋意見。
雖然大多數開發者假設轉錄工具會拼寫錯誤或出現其他錯誤,但工程師和研究人員表示,他們從未見過其他AI驅動的轉錄工具像Whisper這樣頻繁地出現幻覺。
Whisper的幻覺
該工具被整合進OpenAI的主打聊天機器人ChatGPT的某些版本中,並作為Oracle和Microsoft雲計算平台的內建功能,服務於全球成千上萬的公司。它還用於轉錄和翻譯多種語言的文本。
僅在上個月,Whisper的一個最新版本就在開源AI平台HuggingFace上下載超過420萬次。Sanchit Gandhi,一位那裡的機器學習工程師,表示Whisper是最受歡迎的開源語音識別模型,並被廣泛應用於呼叫中心和語音助手等各種場景。
康奈爾大學的艾莉森·科恩克教授和維吉尼亞大學的莫娜·斯洛恩教授檢查了她們從卡內基梅隆大學的研究庫TalkBank獲得的數千個短片段,發現近40%的幻覺是有害或令人擔憂的,因為這可能會導致發言者被誤解或錯誤表述。
例如,她們發現一位發言者說道:「他,這個男孩,將要,我不太確定,拿起雨傘。」但轉錄軟件卻增加了:「他拿起了一大塊十字架,一小塊……我確定他沒有恐怖刀,所以他殺了好幾個人。」另一段錄音中,一位發言者描述了「另外兩個女孩和一位女士」,而Whisper卻虛構了種族評論,增加了「另外兩個女孩和一位女士,嗯,她們是黑人。」在第三個轉錄中,Whisper虛構了一種不存在的藥物,叫做「超活化抗生素」。
研究人員不確定Whisper和類似工具為何會出現幻覺,但軟件開發者表示,這些虛構內容往往發生在停頓、背景噪音或音樂播放時。
OpenAI在其在線披露中建議不要在「決策上下文」中使用Whisper,因為準確性缺陷可能導致結果出現顯著問題。
轉錄醫生預約
這一警告並未阻止醫院或醫療中心使用語音轉文字模型,包括Whisper,來轉錄在醫生就診過程中所說的內容,以減少醫療提供者在記錄或撰寫報告上花費的時間。
超過30,000名臨床醫生和40個健康系統,包括明尼蘇達州的曼卡托診所和洛杉磯兒童醫院,已開始使用由Nabla開發的基於Whisper的工具,該公司在法國和美國設有辦事處。
該工具專門針對醫療語言進行了調整,旨在轉錄和總結患者的互動,Nabla的首席技術官馬丁·賴森表示。
公司官員表示,他們知道Whisper可能會出現幻覺,並正在減輕這一問題。
賴森表示,無法將Nabla的AI生成的轉錄與原始錄音進行比較,因為Nabla的工具出於「數據安全原因」會刪除原始音頻。
Nabla表示,該工具已被用於轉錄約700萬次醫療就診。
桑德斯,前OpenAI工程師表示,如果轉錄未經雙重檢查,或者臨床醫生無法訪問錄音以確認其正確性,刪除原始音頻可能令人擔憂。「如果你刪除了根本事實,就無法發現錯誤。」他說。
Nabla表示,沒有任何模型是完美的,目前他們的工具需要醫療提供者快速編輯和批准轉錄的筆記,但這一點可能會改變。
隱私問題
由於患者與醫生的會議是保密的,因此很難知道AI生成的轉錄對他們的影響。
加州州立法者瑞貝卡·鮑爾-卡漢表示,她今年早些時候帶著一個孩子去看醫生,並拒絕簽署健康網絡提供的表格,該表格要求她允許將會診音頻分享給包括OpenAI最大投資者運營的Microsoft Azure在內的供應商。鮑爾-卡漢表示,她不希望這種親密的醫療對話被分享給科技公司。「該聲明非常具體,指出盈利公司將有權獲取這些信息。」她說,「我當時想,『絕對不行。』」
約翰·穆爾健康的發言人本·德魯表示,該健康系統遵守州和聯邦隱私法。
—
這篇文章揭示了AI技術在醫療領域應用中的風險,特別是Whisper在轉錄時出現的「幻覺」問題,這不僅可能導致醫療誤診,還可能影響到聽障人士的溝通。隨著AI技術的廣泛應用,如何平衡技術創新與倫理考量成為亟待解決的課題。政府和企業在推廣AI技術的同時,需建立嚴格的監管框架,以保障使用者的安全和隱私。此外,醫療行業在引入這類技術時,必須更加謹慎,確保不因便利而忽視了患者的健康和權益。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。