**醫院使用的AI模型被發現捏造病人資料、虛構不存在的藥物和性行為**
在《美聯社》的一項新調查中,數十位專家發現,OpenAI開發的AI轉錄工具Whisper存在頻繁的幻覺和不準確性,經常捏造完全不相關的文本。
更令人擔憂的是,根據美聯社的報導,儘管OpenAI警告其模型不應用於「高風險領域」,但超過30,000名醫療工作者和40個健康系統卻使用基於Whisper的工具Nabla來轉錄和總結病人互動,結果幾乎肯定是不準確的。
在醫療環境中,這可能會帶來「非常嚴重的後果」,高級研究所的教授阿隆德拉·尼爾森告訴美聯社。
「沒有人想要誤診,」尼爾森說。「應該有更高的標準。」
**Whisper的問題**
Nabla的首席技術官馬丁·雷森告訴美聯社,該工具在醫學語言上進行了微調。即便如此,它仍無法擺脫其底層模型的固有不可靠性。
一位機器學習工程師告訴美聯社,他在查看的100多小時的Whisper轉錄中發現了一半的幻覺。另一位檢查了26,000個轉錄的人則發現幾乎所有的轉錄中都有幻覺。
根據美聯社引用的一項最近研究,Whisper即使在錄音良好的短音頻樣本中表現也很差。研究人員警告說,在數百萬次錄音中,可能會有成千上萬的幻覺。
另一組研究人員揭示了這些錯誤有多麼嚴重。他們發現Whisper會無故添加種族評論,例如在未指示的情況下捏造一個人的種族,還會虛構不存在的藥物。在其他情況下,AI會描述原始語音中毫無根據的暴力和性行為。他們甚至發現令人困惑的YouTuber術語,例如「點讚和訂閱」,被插入到轉錄中。
總體而言,這些錯誤中近40%是有害或令人擔憂的,研究小組得出結論,因為它們很容易誤解說話者的真正意思。
**地面真相**
損害的範圍可能是巨大的。根據Nabla的說法,其工具已被用來轉錄估計七百萬次醫療訪問,所有這些訪問的文書工作可能都存在某種有害的不準確性。
更令人擔憂的是,無法驗證AI轉錄的準確性,因為該工具「為了數據安全原因」會刪除原始音頻錄音,雷森說。除非醫療工作者自己保留了錄音副本,否則任何幻覺都將成為官方記錄的一部分。
「如果你拿走了地面真相,就無法抓住錯誤,」因抗議而辭職的OpenAI研究工程師威廉·桑德斯告訴美聯社。
Nabla官員表示,他們知道Whisper可能會產生幻覺,並正在解決這個問題。然而,美聯社指出,對問題的「了解」似乎並沒有阻止該公司將這種實驗性且極其不可靠的技術推向醫療行業。
**編輯評論:**
這篇文章揭示了AI技術在醫療應用中的重大風險。儘管AI在許多領域展示了潛力,但在高風險環境中,如醫療,可靠性至關重要。這不僅涉及技術問題,還涉及倫理和責任。企業在推廣AI技術時應有更高的責任感,尤其是在可能危及生命的領域。未來的技術發展必須更加謹慎,以確保不會因追求創新而忽視基本的安全和準確性。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。