
AI 聊天機器人不可信,研究結果證明了這一點,但蘋果做出了明智的選擇
Ben Lovejoy | 2025年3月11日 – 上午4:16 PT
如果有一條關於AI聊天機器人的建議需要重複,那就是「不要用它們來尋求事實信息——它們絕對不可信。」
一項新的研究顯示了這個問題的嚴重性,但同時也表明蘋果在與OpenAI的ChatGPT合作以應對Siri無法回答的問題時做出了明智的選擇。
使用像ChatGPT、Gemini和Grok這樣的大型語言模型(LLMs)作為網絡搜索的替代方案,存在兩個眾所周知的問題:
1. 它們經常出錯。
2. 它們對錯誤信息表現得非常自信。
根據《哥倫比亞新聞評論》引用的一項研究,即使你用一段新聞的確切引述來提示聊天機器人並請求更多細節,大多數情況下它們的回答都是錯誤的。
數位新聞學中心對八個聲稱能夠進行實時網絡搜索以獲取事實的AI聊天機器人進行了測試:
– ChatGPT
– Perplexity
– Perplexity Pro
– DeepSeek
– 微軟的Copilot
– Grok-2
– Grok-3
– Gemini
給聊天機器人的簡單任務
該研究向每個系統展示了一段文章的引述,並要求它們執行一個簡單的任務:在網上找到該文章並提供一個鏈接,連同標題、原始出版商和出版日期。
為了確保這是一個可實現的任務,研究的作者故意選擇了可以在Google中輕鬆找到的摘錄,原始來源在前三個結果中。
聊天機器人的評價標準是它們是否完全正確、正確但缺少一些請求的信息、部分錯誤、完全錯誤或無法回答。
他們還注意到聊天機器人展示結果的自信程度。例如,它們是否只是將答案陳述為事實,還是使用了“似乎”這樣的修飾短語,或承認未能找到該引述的精確匹配?
結果不佳
首先,大多數聊天機器人在大多數情況下都是部分或完全錯誤的!
平均來看,這些AI系統的正確率不到40%。表現最好的Perplexity正確率為63%,而最差的X的Grok-3僅為6%。
其他主要發現包括:
– 聊天機器人通常不會拒絕回答它們無法準確回答的問題,而是提供錯誤或推測性的答案。
– 高級聊天機器人提供的自信錯誤答案多於免費版本。
– 多個聊天機器人似乎繞過了機器人排除協議的偏好。
– 生成式搜索工具虛構了鏈接,並引用了轉載和抄襲的文章版本。
– 與新聞來源的內容授權協議並未保證聊天機器人在回答中準確引用。
但蘋果做出了明智的選擇
雖然Perplexity的表現最佳,但這似乎是因為它作弊。網絡出版商可以在其網站上使用robots.txt文件告訴AI聊天機器人是否應該訪問該網站。國家地理是一個告訴它們不要搜索其網站的出版商,但報告表示,儘管文章受到付費牆的保護且該公司未與其簽署授權協議,Perplexity仍然正確找到了所有10個引述。
在其他聊天機器人中,ChatGPT的結果最為出色——更準確地說,是最不糟糕的。
儘管如此,這項研究確實表明了我們已經知道的事實:使用聊天機器人來獲取靈感和創意,但絕不要用來獲取事實問題的答案。
—
在這篇文章中,研究對AI聊天機器人的信任問題進行了深入探討,並強調了在使用這類技術時的風險。隨著科技的發展,使用者對AI的依賴也在增加,但這項研究提醒我們,無論技術多麼先進,仍需對其結果保持懷疑態度。對於蘋果選擇與OpenAI合作,這不僅是對技術的選擇,更是對用戶負責的表現。未來,如何在創新與準確性之間取得平衡,將是科技公司必須面對的挑戰。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。