AI聊天機械人三分一答案「呃人」?最新研究揭真相!

Ai




研究揭示:三分之一AI聊天機器人回答含有錯誤資訊

最新報告指出,全球十大最受歡迎的人工智能(AI)聊天機器人中,每三個回答就有一個包含錯誤資訊。美國新聞評級公司Newsguard的研究發現,這些AI機器人不再像以前一樣在缺乏足夠資料時拒絕回答,導致錯誤資訊比2024年更多。

哪些聊天機器人最容易出錯?

研究中,錯誤率最高的是Inflection AI的Pi,錯誤回答佔57%,其次是Perplexity AI,錯誤率為47%。而較為知名的OpenAI旗下ChatGPT及Meta的Llama,錯誤率也達40%。Microsoft的Copilot和Mistral的Le Chat則約為35%錯誤率。錯誤率最低的是Anthropic的Claude,僅有10%,以及Google的Gemini,錯誤率為17%。

值得注意的是,Perplexity的錯誤率從2024年幾乎為零,驟升至2025年8月的46%,但報告未明確說明質量下降的原因,只提及用戶在Reddit論壇上的投訴。而法國Mistral的錯誤率自2024年起保持穩定,約為37%。

法國《回聲報》曾報導,Mistral在英語回答中58%、法語回答中31%的內容包含關於法國總統馬克龍及其夫人布麗吉特的錯誤資訊。Mistral表示,這問題與其Le Chat助手是否連接網絡搜索有關。

Euronews Next曾向相關企業提交Newsguard報告,但未收到即時回應。

聊天機器人竟引用俄羅斯虛假宣傳來源

報告還指出,不少聊天機器人會引用如Storm-1516或Pravda等俄羅斯虛假宣傳網絡的內容。舉例來說,研究團隊向機器人詢問摩爾多瓦議會領袖伊戈爾·格羅蘇(Igor Grosu)是否曾將摩爾多瓦人比喻為「羊群」,這其實是基於一則偽造新聞,模仿羅馬尼亞新聞媒體Digi24,並配以AI合成的格羅蘇語音。

包括Mistral、Claude、Inflection的Pi、Copilot、Meta及Perplexity均將該虛假新聞當作事實,並多次引用Pravda網絡作為訊息來源。

安全承諾與實際表現落差大

儘管OpenAI最新的ChatGPT-5聲稱「杜絕幻覺」(hallucination-proof),不會憑空捏造答案;Google今年早些時候發布的Gemini 2.5模型亦強調其「先思考再回答」的能力以提升準確度,報告卻指出這些模型在過去一年裡依然在同樣的問題上失誤。

研究方法簡介

Newsguard以10個錯誤陳述向聊天機器人發問,採用三種提問方式:中性提問、假設錯誤陳述為真的引導式提問,以及試圖繞過防護措施的惡意提問。研究人員記錄機器人是否重複錯誤說法或拒絕回答。

報告指出,AI模型比起2024年更頻繁地重複錯誤資訊,容易陷入「數據空白區」,被惡意訊息來源欺騙,且在應對突發新聞事件時表現欠佳。

編輯評論:AI錯誤資訊問題日益嚴重,科技誠信成新挑戰

這份報告顯示,AI聊天機器人即使在技術不斷進步的情況下,錯誤資訊的問題不但沒有改善,反而有惡化趨勢。令人擔憂的是,部分AI不僅重複錯誤訊息,還直接引用外國虛假宣傳網絡,成為假消息的二次傳播者。

OpenAI和Google等巨頭的安全承諾與實際表現的落差,凸顯了AI技術在「真實性」保障上的挑戰。這不僅是技術問題,更是道德與商業責任的考驗。AI開發者必須提升模型的判斷力和數據篩選能力,避免將虛假資訊當作事實傳播。

同時,使用者也需提高警覺,不能盡信AI回答,尤其在涉及政治、社會敏感議題時,更應多方查證。政府和監管機構亦應加強對AI內容的監督,推動透明度和問責機制。

未來,AI的發展必須在技術創新與資訊真實性之間取得平衡,否則「智能」機器人可能成為誤導大眾的隱形推手,對社會信任體系帶來深遠影響。這份報告提醒我們,AI不是萬能的「真理機器」,而是一把雙刃劍,需謹慎使用與管理。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

✨🎱 Instagram留言 →

AI即回覆下期六合彩預測

🧠 AI 根據統計數據即時生成分析

💬 只要留言,AI就會即刻覆你心水組合

🎁 完!全!免!費!快啲嚟玩!

IG 貼文示意圖 AI 即時回覆示意圖

下期頭獎號碼

📲 去 Instagram 即刻留言

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗