AI 轉錄工具「Whisper」竟然會捏造內容!

Ai

研究人員指出,醫院使用的AI轉錄工具捏造虛構內容

舊金山——科技巨頭OpenAI推出的人工智能轉錄工具Whisper,以其接近“人類水平的穩健性和準確性”而著稱。

然而,Whisper有一個重大缺陷:它容易捏造文本片段甚至整個句子。根據與十多位軟件工程師、開發者和學術研究員的訪談,這些專家表示,一些虛構的文本——在業界稱為幻覺——可能包括種族評論、暴力言論,甚至是虛構的醫療治療。

專家們表示,這種捏造問題很嚴重,因為Whisper被廣泛應用於全球各行各業,用來翻譯和轉錄採訪,生成流行消費技術中的文本,並為視頻創建字幕。

更令人擔憂的是,儘管OpenAI警告該工具不應用於“高風險領域”,但醫療中心卻急於使用基於Whisper的工具來轉錄患者與醫生的會面。

問題的全部範圍難以識別,但研究人員和工程師表示,他們在工作中經常發現Whisper的幻覺。密歇根大學的一位研究人員在研究公開會議時發現,在他檢查的每10個音頻轉錄中,有8個存在幻覺,這是在他開始嘗試改進模型之前。

一位機器學習工程師表示,他在分析的超過100小時的Whisper轉錄中,最初發現約一半存在幻覺。另一位開發者則表示,他在用Whisper創建的26,000個轉錄中幾乎每一個都發現幻覺。

即使是錄製良好的短音頻樣本,問題也依然存在。最近,計算機科學家的一項研究發現,在超過13,000個清晰音頻片段中,出現了187個幻覺。

這種趨勢可能導致數百萬次錄音中出現數以萬計的錯誤轉錄,研究人員表示。

這些錯誤可能造成“非常嚴重的後果”,尤其是在醫院環境中,前白宮科學技術政策辦公室主任艾隆德拉·尼爾森說。

“沒有人希望被誤診,”尼爾森說,她是普林斯頓新澤西高等研究院的教授。“應該設置更高的標準。”

Whisper還被用來為聾人和重聽人士創建字幕——這是一個特別容易受到錯誤轉錄影響的人群。因為聾人和重聽人士無法識別隱藏在所有其他文本中的捏造內容,蓋洛德大學技術訪問計劃的導演克里斯蒂安·沃格勒說。

OpenAI被敦促解決問題
幻覺的普遍存在促使專家、倡導者和前OpenAI員工呼籲聯邦政府考慮AI監管。他們表示,至少OpenAI需要解決這一缺陷。

“如果公司願意優先考慮這個問題,這似乎是可以解決的,”一位在2月因對公司方向不滿而辭職的舊金山研究工程師威廉·桑德斯說。“如果你推出這個產品,人們過於自信地相信它的功能,並將其整合到所有其他系統中,那就很成問題。”

OpenAI的一位發言人表示,公司不斷研究如何減少幻覺,並感謝研究人員的發現,還補充說OpenAI在模型更新中採納了反饋。

雖然大多數開發者認為轉錄工具會拼錯單詞或犯其他錯誤,但工程師和研究人員表示,他們從未見過另一個AI驅動的轉錄工具像Whisper那樣產生如此多的幻覺。

這個工具被整合到OpenAI的旗艦聊天機器人ChatGPT的一些版本中,並且是Oracle和Microsoft雲計算平台內置的功能,這些平台為全球數千家公司提供服務。它還被用來轉錄和翻譯文本到多種語言。

在過去的一個月中,來自開源AI平台HuggingFace的Whisper一個新版本已被下載超過420萬次。那裡的機器學習工程師Sanchit Gandhi表示,Whisper是最受歡迎的開源語音識別模型,並內置於從呼叫中心到語音助手的各種應用中。

康奈爾大學的Allison Koenecke教授和弗吉尼亞大學的Mona Sloane教授檢查了從卡內基梅隆大學的研究庫TalkBank獲得的數千個短片段。他們確定近40%的幻覺是有害或令人擔憂的,因為說話者可能被誤解或誤導。

他們發現的一個例子中,一個說話者說,“他,那個男孩,要去,我不確定確切地,拿雨傘。”

但轉錄軟件卻添加了:“他拿了一大塊十字架,一小塊……我敢肯定他沒有恐怖刀,所以他殺了一些人。”

另一個錄音中的說話者描述了“另外兩個女孩和一位女士。”Whisper則捏造了關於種族的額外評論,添加了“另外兩個女孩和一位女士,嗯,她們是黑人。”

在第三個轉錄中,Whisper捏造了一種不存在的藥物,稱為“超活性抗生素。”

研究人員不確定為什麼Whisper和類似工具會產生幻覺,但軟件開發者表示,這些捏造往往發生在停頓、背景聲音或音樂播放時。

OpenAI在其網上披露中建議不要在“決策背景下使用Whisper,因為準確性的缺陷可能導致結果的顯著缺陷。”

轉錄醫生會面
這一警告並未阻止醫院或醫療中心使用語音轉文本模型,包括Whisper,來轉錄醫生訪問中所說的話,以減少醫療提供者在做筆記或寫報告上的時間。

超過30,000名臨床醫生和40個健康系統,包括明尼蘇達的曼卡托診所和洛杉磯兒童醫院,已開始使用由Nabla開發的基於Whisper的工具,Nabla在法國和美國設有辦事處。

該工具在醫學語言上進行了微調,以轉錄和總結患者的互動,Nabla的首席技術官Martin Raison表示。

公司官員表示,他們知道Whisper可能會出現幻覺,並正在緩解這一問題。

由於數據安全原因,Nabla的工具會刪除原始音頻,因此無法將AI生成的轉錄與原始錄音進行比較。

Nabla表示,該工具已被用來轉錄約700萬次醫療訪問。

桑德斯,前OpenAI工程師表示,如果不能雙重檢查轉錄或臨床醫生無法訪問錄音以驗證其正確性,刪除原始音頻可能會令人擔憂。

“如果你拿走了真實的資料,你就無法發現錯誤,”他說。

Nabla表示,沒有模型是完美的,他們的模型目前需要醫療提供者快速編輯和批准轉錄的筆記,但這可能會改變。

隱私問題
由於患者與醫生的會面是保密的,很難知道AI生成的轉錄對他們的影響。

加州州議員Rebecca Bauer-Kahan表示,今年早些時候她帶其中一個孩子去看醫生,並拒絕簽署健康網絡提供的一份表格,該表格要求她批准與包括OpenAI最大投資者運營的雲計算系統Microsoft Azure在內的供應商共享會診音頻。Bauer-Kahan表示,她不希望這樣親密的醫療對話被分享給科技公司。

“釋放非常明確地指出,盈利性公司將有權擁有這個,”代表舊金山郊區一部分的民主黨人Bauer-Kahan說。“我當時想‘絕對不行。’”

John Muir Health發言人Ben Drew表示,健康系統遵守州和聯邦隱私法律。

評論
Whisper的幻覺問題引發了對AI技術在敏感領域應用的嚴重關注。雖然AI技術在許多方面帶來了便利,但在醫療等高風險領域,錯誤的後果可能是災難性的。這不僅僅是技術問題,更涉及倫理和責任。科技公司需要對其產品的潛在風險負責,並積極尋求解決方案。同時,監管機構也應加強對AI技術的監管,確保其應用不會對公眾造成危害。科技的發展應該以人為本,而不是單純追求技術的進步。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *