研究揭示:三分之一AI聊天機器人回答含有錯誤資訊
最新報告指出,全球十大最受歡迎的人工智能(AI)聊天機器人中,每三個回答就有一個包含錯誤資訊。美國新聞評級公司Newsguard的研究發現,這些AI機器人不再像以前一樣在缺乏足夠資料時拒絕回答,導致錯誤資訊比2024年更多。
哪些聊天機器人最容易出錯?
研究中,錯誤率最高的是Inflection AI的Pi,錯誤回答佔57%,其次是Perplexity AI,錯誤率為47%。而較為知名的OpenAI旗下ChatGPT及Meta的Llama,錯誤率也達40%。Microsoft的Copilot和Mistral的Le Chat則約為35%錯誤率。錯誤率最低的是Anthropic的Claude,僅有10%,以及Google的Gemini,錯誤率為17%。
值得注意的是,Perplexity的錯誤率從2024年幾乎為零,驟升至2025年8月的46%,但報告未明確說明質量下降的原因,只提及用戶在Reddit論壇上的投訴。而法國Mistral的錯誤率自2024年起保持穩定,約為37%。
法國《回聲報》曾報導,Mistral在英語回答中58%、法語回答中31%的內容包含關於法國總統馬克龍及其夫人布麗吉特的錯誤資訊。Mistral表示,這問題與其Le Chat助手是否連接網絡搜索有關。
Euronews Next曾向相關企業提交Newsguard報告,但未收到即時回應。
聊天機器人竟引用俄羅斯虛假宣傳來源
報告還指出,不少聊天機器人會引用如Storm-1516或Pravda等俄羅斯虛假宣傳網絡的內容。舉例來說,研究團隊向機器人詢問摩爾多瓦議會領袖伊戈爾·格羅蘇(Igor Grosu)是否曾將摩爾多瓦人比喻為「羊群」,這其實是基於一則偽造新聞,模仿羅馬尼亞新聞媒體Digi24,並配以AI合成的格羅蘇語音。
包括Mistral、Claude、Inflection的Pi、Copilot、Meta及Perplexity均將該虛假新聞當作事實,並多次引用Pravda網絡作為訊息來源。
安全承諾與實際表現落差大
儘管OpenAI最新的ChatGPT-5聲稱「杜絕幻覺」(hallucination-proof),不會憑空捏造答案;Google今年早些時候發布的Gemini 2.5模型亦強調其「先思考再回答」的能力以提升準確度,報告卻指出這些模型在過去一年裡依然在同樣的問題上失誤。
研究方法簡介
Newsguard以10個錯誤陳述向聊天機器人發問,採用三種提問方式:中性提問、假設錯誤陳述為真的引導式提問,以及試圖繞過防護措施的惡意提問。研究人員記錄機器人是否重複錯誤說法或拒絕回答。
報告指出,AI模型比起2024年更頻繁地重複錯誤資訊,容易陷入「數據空白區」,被惡意訊息來源欺騙,且在應對突發新聞事件時表現欠佳。
—
編輯評論:AI錯誤資訊問題日益嚴重,科技誠信成新挑戰
這份報告顯示,AI聊天機器人即使在技術不斷進步的情況下,錯誤資訊的問題不但沒有改善,反而有惡化趨勢。令人擔憂的是,部分AI不僅重複錯誤訊息,還直接引用外國虛假宣傳網絡,成為假消息的二次傳播者。
OpenAI和Google等巨頭的安全承諾與實際表現的落差,凸顯了AI技術在「真實性」保障上的挑戰。這不僅是技術問題,更是道德與商業責任的考驗。AI開發者必須提升模型的判斷力和數據篩選能力,避免將虛假資訊當作事實傳播。
同時,使用者也需提高警覺,不能盡信AI回答,尤其在涉及政治、社會敏感議題時,更應多方查證。政府和監管機構亦應加強對AI內容的監督,推動透明度和問責機制。
未來,AI的發展必須在技術創新與資訊真實性之間取得平衡,否則「智能」機器人可能成為誤導大眾的隱形推手,對社會信任體系帶來深遠影響。這份報告提醒我們,AI不是萬能的「真理機器」,而是一把雙刃劍,需謹慎使用與管理。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。