AI語音轉錄工具「Whisper」暴露重大缺陷

zero comment

**研究人員稱醫院使用的AI轉錄工具捏造不存在的內容**

舊金山（美聯社）— 科技巨頭OpenAI宣稱其人工智能驅動的轉錄工具Whisper擁有接近“人類水平的穩健性和準確性”。然而，Whisper存在一個重大缺陷：它容易捏造文本塊甚至整個句子。根據超過十幾位軟件工程師、開發者和學術研究人員的訪談，這些專家指出，某些捏造的文本——在行業內稱為幻覺——可能包括種族評論、暴力言論，甚至虛構的醫療治療。

專家表示，這些捏造問題相當嚴重，因為Whisper已在全球多個行業中被用於翻譯和轉錄採訪、生成流行消費技術中的文本和視頻字幕。更令人擔憂的是，醫療中心匆忙使用基於Whisper的工具來轉錄病人與醫生的會面，儘管OpenAI警告不應在“高風險領域”使用該工具。

研究人員和工程師指出，Whisper的幻覺在他們的工作中經常出現。例如，密歇根大學的一位研究人員在研究公共會議時發現，在他檢查的每10個音頻轉錄中有8個出現幻覺。

一位機器學習工程師表示，他在分析的超過100小時Whisper轉錄中，最初發現約一半存在幻覺。另一位開發者則發現他創建的26,000個轉錄中幾乎每一個都有幻覺。即便是錄製良好、短小的音頻樣本，問題依然存在。計算機科學家的一項近期研究在檢查的13,000多個清晰音頻片段中發現了187個幻覺。

這種趨勢可能導致數以萬計的錯誤轉錄，研究人員表示，這種錯誤在醫院環境中特別可能帶來「非常嚴重的後果」。

Whisper還被用來為聾人和聽障人士創建閉路字幕，這一群體特別容易受到錯誤轉錄的影響。因為聾人和聽障人士無法識別捏造的內容被“隱藏在所有其他文本中”。

**呼籲OpenAI解決問題**

由於這些幻覺的普遍存在，專家、倡導者和前OpenAI員工呼籲聯邦政府考慮制定AI法規。他們說，至少OpenAI需要解決這一缺陷。

“如果公司願意優先考慮，這似乎是可以解決的，”一位舊金山的研究工程師表示。他因擔心公司方向而在二月離開了OpenAI。“如果你把這些工具推出去，而人們對它的能力過於自信，並將其集成到其他系統中，這是有問題的。”

OpenAI發言人表示，公司不斷研究如何減少幻覺，並感謝研究人員的發現，OpenAI會在模型更新中納入反饋。

儘管大多數開發者假設轉錄工具會拼錯字或犯其他錯誤，工程師和研究人員表示，他們從未見過其他AI驅動的轉錄工具出現像Whisper這樣多的幻覺。

**Whisper幻覺的例子**

這款工具集成在OpenAI的旗艦聊天機器人ChatGPT的一些版本中，也是Oracle和Microsoft雲計算平台的內置產品，為全球數千家公司提供服務。它還用於轉錄和翻譯多種語言的文本。

最近一個月，Whisper的一個版本從開源AI平台HuggingFace下載超過420萬次。那裡的一位機器學習工程師表示，Whisper是最受歡迎的開源語音識別模型，並被集成到從呼叫中心到語音助手的各種應用中。

康奈爾大學的Allison Koenecke教授和弗吉尼亞大學的Mona Sloane教授檢查了從Carnegie Mellon大學的研究資料庫TalkBank獲得的數千個短片段。他們發現，近40%的幻覺是有害或令人擔憂的，因為可能會誤解或誤傳講話者的意思。

在他們揭露的一個例子中，一位講話者說：“他，那個男孩，打算，我不確定確切地說，拿起傘。”但轉錄軟件卻添加了：“他拿了一大塊十字架，一塊小小的碎片……我確定他沒有恐懼刀，所以他殺了很多人。”

另一個錄音中，講話者描述“兩個女孩和一位女士。”Whisper則虛構了種族評論，添加了“兩個女孩和一位女士，嗯，其中是黑人。”

在第三個轉錄中，Whisper虛構了一種不存在的藥物，稱為“超活性抗生素”。

研究人員不確定為什麼Whisper和類似工具會產生幻覺，但軟件開發者表示，捏造往往發生在停頓、背景聲音或音樂播放時。

OpenAI在其在線披露中建議不要在“決策背景中使用Whisper，因為準確性缺陷可能導致顯著的結果缺陷。”

**醫療會診轉錄**

這一警告並未阻止醫院或醫療中心使用語音轉文本模型，包括Whisper，來轉錄醫生訪診時的對話，以便減少醫療提供者在記錄或撰寫報告上花費的時間。

超過30,000名臨床醫生和40個醫療系統，包括明尼蘇達州的曼卡托診所和洛杉磯兒童醫院，已經開始使用法國和美國的Nabla公司開發的基於Whisper的工具。

該工具在醫學語言上進行了微調，以轉錄和總結患者的互動，Nabla的首席技術官Martin Raison表示。

公司官員表示，他們知道Whisper可能會產生幻覺，並正在減輕這一問題。

由於數據安全原因，無法將Nabla的AI生成轉錄與原始錄音進行比較，Raison說。

Nabla表示，該工具已被用於轉錄估計700萬次醫療訪問。

前OpenAI工程師Saunders表示，如果轉錄沒有經過仔細核對或臨床醫生無法訪問錄音進行驗證，刪除原始音頻可能會令人擔憂。

“如果你拿走了真相，就無法捕捉錯誤，”他說。

Nabla表示，沒有一個模型是完美的，目前需要醫療提供者快速編輯和批准轉錄的筆記，但這可能會改變。

**隱私問題**

由於患者與醫生的會面是保密的，很難知道AI生成的轉錄對他們的影響。

加州州議員Rebecca Bauer-Kahan表示，今年早些時候，她帶其中一個孩子去看醫生，拒絕簽署健康網絡提供的表格，該表格要求她同意將會診音頻與包括OpenAI最大投資者運營的微軟Azure在內的供應商共享。Bauer-Kahan表示，她不希望這樣的私密醫療對話被分享給科技公司。

“這份授權書非常具體地指出，營利公司將有權擁有這些，”Bauer-Kahan說。“我當時就想‘絕對不行’。”

John Muir Health發言人Ben Drew表示，該健康系統遵守州和聯邦隱私法。

這篇報道由普利策中心AI責任網絡合作製作，該網絡也部分支持了Whisper的學術研究。

美聯社從Omidyar Network獲得財政援助，以支持人工智能及其對社會影響的報道。美聯社對所有內容負全責。

**評論：**

這篇文章揭示了AI技術在醫療和其他高風險領域應用中潛在的危險。Whisper工具的幻覺現象，無論是在醫療會診還是日常應用中，都可能帶來巨大的負面影響。這不僅涉及到技術上的挑戰，更反映了在科技快速發展的背景下，對倫理和監管的迫切需求。在香港，類似的AI技術也正在逐步進入各行各業，這提醒我們在採用這些新技術時，必須謹慎考慮其準確性和可靠性。此外，如何在技術進步與用戶隱私之間取得平衡，也是值得深思的課題。這篇文章不僅是對技術問題的報道，更是一個對未來科技應用的警示。

以上文章由特價GPT API KEY所翻譯

Download TXT

AI語音轉錄工具「Whisper」暴露重大缺陷

✨🎱 Instagram留言 →

AI即回覆下期六合彩預測

chatgpt

發佈留言取消回覆

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！

AI語音轉錄工具「Whisper」暴露重大缺陷

✨🎱 Instagram留言 →

AI即回覆下期六合彩預測

chatgpt

發佈留言 取消回覆

Related Articles

洛馬AI無人機自動救援任務突破

微軟斥175億美元打造印度AI雲端基建

AI智能代理學習技能：打造自我進化記憶系統

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年！

發佈留言取消回覆

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！