AI Chatbot靠唔住？研究話Apple揀啱OpenAI，Siri醒啲！

zero comment

AI 聊天機器人不可信，研究結果證明了這一點，但蘋果做出了明智的選擇
Ben Lovejoy | 2025年3月11日 – 上午4:16 PT

如果有一條關於AI聊天機器人的建議需要重複，那就是「不要用它們來尋求事實信息——它們絕對不可信。」

一項新的研究顯示了這個問題的嚴重性，但同時也表明蘋果在與OpenAI的ChatGPT合作以應對Siri無法回答的問題時做出了明智的選擇。

使用像ChatGPT、Gemini和Grok這樣的大型語言模型（LLMs）作為網絡搜索的替代方案，存在兩個眾所周知的問題：

1. 它們經常出錯。
2. 它們對錯誤信息表現得非常自信。

根據《哥倫比亞新聞評論》引用的一項研究，即使你用一段新聞的確切引述來提示聊天機器人並請求更多細節，大多數情況下它們的回答都是錯誤的。

數位新聞學中心對八個聲稱能夠進行實時網絡搜索以獲取事實的AI聊天機器人進行了測試：

– ChatGPT
– Perplexity
– Perplexity Pro
– DeepSeek
– 微軟的Copilot
– Grok-2
– Grok-3
– Gemini

給聊天機器人的簡單任務
該研究向每個系統展示了一段文章的引述，並要求它們執行一個簡單的任務：在網上找到該文章並提供一個鏈接，連同標題、原始出版商和出版日期。

為了確保這是一個可實現的任務，研究的作者故意選擇了可以在Google中輕鬆找到的摘錄，原始來源在前三個結果中。

聊天機器人的評價標準是它們是否完全正確、正確但缺少一些請求的信息、部分錯誤、完全錯誤或無法回答。

他們還注意到聊天機器人展示結果的自信程度。例如，它們是否只是將答案陳述為事實，還是使用了“似乎”這樣的修飾短語，或承認未能找到該引述的精確匹配？

結果不佳
首先，大多數聊天機器人在大多數情況下都是部分或完全錯誤的！

平均來看，這些AI系統的正確率不到40%。表現最好的Perplexity正確率為63%，而最差的X的Grok-3僅為6%。

其他主要發現包括：

– 聊天機器人通常不會拒絕回答它們無法準確回答的問題，而是提供錯誤或推測性的答案。
– 高級聊天機器人提供的自信錯誤答案多於免費版本。
– 多個聊天機器人似乎繞過了機器人排除協議的偏好。
– 生成式搜索工具虛構了鏈接，並引用了轉載和抄襲的文章版本。
– 與新聞來源的內容授權協議並未保證聊天機器人在回答中準確引用。

但蘋果做出了明智的選擇
雖然Perplexity的表現最佳，但這似乎是因為它作弊。網絡出版商可以在其網站上使用robots.txt文件告訴AI聊天機器人是否應該訪問該網站。國家地理是一個告訴它們不要搜索其網站的出版商，但報告表示，儘管文章受到付費牆的保護且該公司未與其簽署授權協議，Perplexity仍然正確找到了所有10個引述。

在其他聊天機器人中，ChatGPT的結果最為出色——更準確地說，是最不糟糕的。

儘管如此，這項研究確實表明了我們已經知道的事實：使用聊天機器人來獲取靈感和創意，但絕不要用來獲取事實問題的答案。

—

在這篇文章中，研究對AI聊天機器人的信任問題進行了深入探討，並強調了在使用這類技術時的風險。隨著科技的發展，使用者對AI的依賴也在增加，但這項研究提醒我們，無論技術多麼先進，仍需對其結果保持懷疑態度。對於蘋果選擇與OpenAI合作，這不僅是對技術的選擇，更是對用戶負責的表現。未來，如何在創新與準確性之間取得平衡，將是科技公司必須面對的挑戰。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

AI Chatbot靠唔住？研究話Apple揀啱OpenAI，Siri醒啲！

chatgpt

Related Articles

Jefferies大幅沽出阿里巴巴股票揭秘！

AI發展新挑戰：開放模型與倫理抉擇

中國突破美國晶片封鎖 AI市場大洗牌！