**研究人員指出醫院使用的AI語音轉錄工具會捏造不存在的內容**
舊金山(美聯社)— 科技巨頭OpenAI宣稱其人工智能驅動的語音轉錄工具Whisper具有人類級別的穩健性和準確性。
然而,Whisper有一個重大缺陷:它容易捏造文本片段甚至整句話。根據與十多位軟件工程師、開發者和學者的訪談,這些專家表示某些捏造的文本——在業界被稱為「幻覺」——可能包含種族評論、暴力言論甚至虛構的醫療治療。
專家們指出,這些捏造問題尤其令人擔憂,因為Whisper正在全球多個行業中用於翻譯和轉錄訪談、生成熱門消費技術中的文本以及創建視頻字幕。
更令人擔憂的是,醫療中心急於使用基於Whisper的工具來轉錄患者與醫生的會談,儘管OpenAI警告該工具不應用於「高風險領域」。
問題的全貌難以辨識,但研究人員和工程師表示,他們在工作中經常遇到Whisper的幻覺。密歇根大學的一位研究人員在進行公共會議研究時,發現他檢查的每10個音頻轉錄中有8個存在幻覺,然後他開始改進這個模型。
一位機器學習工程師表示,他在分析的超過100小時的Whisper轉錄中發現了約一半的幻覺。另一位開發者則表示,他在製作的26,000個轉錄中幾乎每一個都發現了幻覺。
這些問題即使在錄製良好、短小的音頻樣本中也會存在。計算機科學家最近的一項研究發現,在他們檢查的13,000多個清晰音頻片段中,有187個幻覺。
這種趨勢將導致數以萬計的錯誤轉錄,研究人員表示。
這些錯誤可能會有「非常嚴重的後果」,特別是在醫院環境,前白宮科學技術政策辦公室主任阿隆德拉·尼爾森表示。
「沒有人想要誤診。」尼爾森說,「應該有更高的標準。」
Whisper也用於為聾人和聽障人士創建閉幕字幕——這是一個在錯誤轉錄中特別容易受到影響的群體。因為聾人和聽障人士無法辨識「隱藏在所有其他文本中的捏造」,聾人並領導加勞德特大學技術訪問計劃的克里斯蒂安·沃格勒表示。
**OpenAI被敦促解決問題**
這些幻覺的普遍存在使得專家、倡導者和OpenAI的前員工呼籲聯邦政府考慮AI法規。至少,他們表示,OpenAI需要解決這個缺陷。
「如果公司願意優先考慮這個問題,似乎可以解決。」舊金山的研究工程師威廉·桑德斯說,他因對公司的方向感到擔憂而在2月辭去OpenAI的工作。「如果你將其推向市場,人們對它能做什麼過於自信並將其整合到所有這些其他系統中,這是有問題的。」
OpenAI的發言人表示,公司持續研究如何減少幻覺,並感謝研究人員的發現,並補充說OpenAI在模型更新中融入了反饋。
雖然大多數開發者假設轉錄工具會拼寫錯誤或犯其他錯誤,但工程師和研究人員表示,他們從未見過其他AI驅動的轉錄工具像Whisper這樣頻繁地出現幻覺。
**Whisper幻覺**
該工具被整合到OpenAI的旗艦聊天機器人ChatGPT的一些版本中,並且是甲骨文和微軟雲計算平台的內置產品,這些平台為全球數千家公司提供服務。它還用於將文本轉錄和翻譯成多種語言。
僅在上個月,Whisper的一個最新版本就從開源AI平台HuggingFace下載了超過420萬次。那裡的機器學習工程師Sanchit Gandhi表示,Whisper是最受歡迎的開源語音識別模型,並被內置到從呼叫中心到語音助手的各種應用中。
康奈爾大學的艾莉森·科尼克和弗吉尼亞大學的莫娜·斯隆教授檢查了他們從卡內基梅隆大學托管的研究資源庫TalkBank獲得的數千個短片段。他們確定近40%的幻覺是有害或令人擔憂的,因為說話者可能會被誤解或誤傳。
在他們發現的一個例子中,一位說話者說:「他,那個男孩,要去,我不確定,拿雨傘。」
但轉錄軟件添加了:「他拿了一大塊十字架,一小塊……我確定他沒有恐怖刀,所以他殺了很多人。」
另一段錄音中的說話者描述了「兩個女孩和一位女士」。Whisper捏造了關於種族的額外評論,添加了「兩個女孩和一位女士,嗯,都是黑人。」
在第三個轉錄中,Whisper捏造了一種不存在的藥物,稱為「超活性抗生素」。
研究人員不確定為何Whisper和類似工具會出現幻覺,但軟件開發者表示,捏造往往發生在停頓、背景聲音或音樂播放時。
OpenAI在其在線披露中建議不要在「決策環境中使用Whisper,因為準確性缺陷會導致結果顯著缺陷。」
**轉錄醫生約診**
這一警告並未阻止醫院或醫療中心使用語音轉文本模型,包括Whisper,在醫生訪問期間轉錄所說的內容,以便讓醫療提供者花更少時間在筆記或報告撰寫上。
超過30,000名臨床醫生和40個健康系統,包括明尼蘇達州的曼卡托診所和洛杉磯兒童醫院,已經開始使用由Nabla開發的一種基於Whisper的工具,該公司在法國和美國設有辦事處。
該工具在醫學語言上進行了微調,以轉錄和總結患者的互動,Nabla的首席技術官馬丁·雷森表示。
公司官員表示,他們知道Whisper可能會出現幻覺,並正在解決這個問題。
雷森說,由於數據安全原因,無法將Nabla的AI生成的轉錄與原始錄音進行比較,因為Nabla的工具會刪除原始音頻。
Nabla表示,該工具已被用來轉錄估計700萬次醫療訪問。
前OpenAI工程師桑德斯表示,如果不檢查轉錄或臨床醫生無法訪問錄音以核實其正確性,刪除原始音頻可能會令人擔憂。
「如果你拿走了真相,你就無法發現錯誤。」他說。
Nabla表示,沒有模型是完美的,他們的模型目前要求醫療提供者快速編輯和批准轉錄的筆記,但這可能會改變。
**隱私問題**
由於患者與醫生的會面是保密的,難以知道AI生成的轉錄如何影響他們。
加州州議員麗貝卡·鮑爾-卡漢表示,今年早些時候,她帶其中一個孩子去看醫生,並拒絕簽署健康網絡提供的表格,該表格要求她同意將會診音頻與包括微軟Azure在內的供應商分享,這是OpenAI最大投資者運營的雲計算系統。她說她不希望如此親密的醫療對話與科技公司分享。
「這份聲明非常具體,要求營利公司有權擁有這些。」民主黨的鮑爾-卡漢說,她代表舊金山郊區的一部分。「我當時想『絕對不行。』」
約翰·繆爾健康發言人本·德魯表示,健康系統遵守州和聯邦隱私法。
這篇報導由Schellmann從紐約報導。
**評論**
這篇文章揭示了人工智能技術在實際應用中可能帶來的潛在風險,尤其是在醫療領域。AI技術的快速發展帶來了便利,但也伴隨著許多尚未解決的問題。Whisper的幻覺問題提醒我們,技術的準確性和安全性應該是首要考量。尤其在醫療這樣的敏感領域,任何錯誤都可能導致嚴重後果。
對於科技公司來說,如何在追求創新和確保安全之間找到平衡點,是一個值得深思的問題。而對於用戶和監管機構來說,如何提高對AI技術的理解和監管,也是一個亟需解決的挑戰。這篇報導不僅揭示了技術的缺陷,也提醒我們在擁抱新技術的同時,必須保持謹慎。
以上文章由特價GPT API KEY所翻譯