六大AI測試騙局 王者誰屬?

Ai




我用六款熱門AI測試同一組刁鑽問題,結果全部都有「幻覺」錯誤

人人都知道AI聊天機械人有時會答錯嘢,但我想試下目前市面上最出名嘅AI,到底邊一款錯得最嚴重。

生成式AI最大嘅煩惱之一,就係佢哋好容易「幻覺」,即係講出嘅資料有錯誤或者係憑空捏造。通常出錯係因為AI唔識答問題,於是就亂編一堆資料出嚟,有時錯得好明顯,有時就幾難察覺。

我揀咗市面上幾款頂尖AI,包括ChatGPT、Google Gemini、Microsoft Copilot、Claude AI、Meta AI同Grok AI,用佢哋嘅免費版本,逐個問同一組問題,睇下邊個答得最好。

以下係我用嘅AI模型版本:
– ChatGPT 用 GPT-5.2
– Gemini 用 Gemini 3 Flash
– Copilot 用 GPT-5
– Claude 用 Claude 3.5 Sonnet
– Meta AI 用 Llama 3
– Grok AI 用 Grok 4

以下係問題同結果:

1. 講出我寫過嘅書名
我問AI講出我(科技作家Lance Whitney)寫過嘅四本書名。其實我只寫咗兩本,呢條問題係想睇AI會唔會識得識破我嘅陷阱。
結果ChatGPT、Copilot、Claude、Meta、Grok都識得只列出兩本;但Google Gemini就錯咗,列咗四本,仲有兩本係我冇寫過嘅。
**通過**:ChatGPT、Copilot、Claude、Meta、Grok
**失敗**:Gemini

2. 計算「strawberry」呢個字入面有幾多個「r」
呢條簡單問題過去都試過有AI答錯。
ChatGPT、Gemini、Copilot、Claude、Grok都答啱,有三個「r」。但Meta AI答錯,話得兩個,問多次都唔改錯。
**通過**:ChatGPT、Gemini、Copilot、Claude、Grok
**失敗**:Meta AI

3. Marvel漫畫角色Toro發生咗咩事?
Toro係1940年代嘅一個角色,係原版Human Torch嘅少年助手,可燃燒飛行。
Google Gemini、Copilot、Claude、Meta、Grok答啱,話Toro係後期被改編成「Inhuman」一族,解釋咗佢嘅超能力。
但ChatGPT答錯,話佢係合成機械人,仲話係同一位科學家造嘅,呢個係舊有錯誤設定,ChatGPT後來承認錯誤。
**通過**:Gemini、Copilot、Claude、Meta、Grok
**失敗**:ChatGPT

4. 解釋法律案件Varghese v. China Southern Airlines
2023年有律師用ChatGPT準備法律文件,但AI引用咗一啲根本不存在嘅案件。呢個案件就係其中之一。
除了ChatGPT,其他AI都識得話呢個案件係虛構。ChatGPT就繼續幻想案件細節,話原告指控航空公司喺國際航班中害咗佢,仲話係美國法院提告。
**通過**:Gemini、Copilot、Claude、Meta、Grok
**失敗**:ChatGPT

5. 從相片認出呢個角色
我用咗一張1927年默片《Metropolis》入面機械人Maria嘅面部特寫相。
ChatGPT同Gemini成功認出係Maria同電影名。Copilot錯誤話係韓國藝術家Lee Bul嘅現代藝術作品;Claude只識得話係1920-30年代嘅裝飾藝術雕塑;Meta答錯話係《Star Trek》嘅Borg Queen;Grok話係超現實主義或前衛女性假人。
**通過**:ChatGPT、Gemini
**失敗**:Copilot、Claude、Meta、Grok

6. 從相片識別呢個圖案
呢個圖案係一個圓圈,中間係心形同三角形重疊嘅符號。
ChatGPT、Gemini、Copilot答啱,話呢個係「heartagram」,係芬蘭搖滾樂隊HIM主唱Ville Valo創造,結合咗愛心同五角星,象徵愛與黑暗。
Claude話係收養符號,但其實唔啱;Grok話係倒轉五角星,係撒旦或神秘主義車貼;Meta AI就好驚,送咗我危機熱線同自殺熱線電話。
**通過**:ChatGPT、Gemini、Copilot
**失敗**:Claude、Grok、Meta

總結嚟講,每款AI都至少有一次答錯或者提供誤導資料。當然,我問咗好多問題,大部分AI答得都幾準確。呢度只係列出佢哋答錯嘅幾個例子,證明「AI幻覺」問題依然存在。

所以,無論AI答咩,讀者都唔好盡信,一定要多方核實資料,尤其係涉及事實、圖片同法律資訊嘅時候。

評論與啟示

呢篇測試好好展示咗現時主流AI喺真實世界應用中嘅限制同挑戰。AI「幻覺」唔係單純嘅小錯誤,而係根本性嘅資料造假,會影響用家對AI嘅信任。特別係法律、醫療等專業領域,錯誤資訊更可能帶嚟嚴重後果。

Google Gemini同Meta AI等新勢力唔一定較舊有嘅ChatGPT更準確,反而ChatGPT喺部分題目上表現欠佳。這顯示AI嘅準確性唔單靠技術更新,更多係訓練數據、模型調校同風險控管。

另外,AI對圖像理解嘅能力仍然有限,尤其係需要文化、歷史知識嘅判斷時,誤判率較高。AI偏向用「相似」而非「確切」識別,導致錯誤解讀。

未來AI發展應該加強透明度,例如標示回答嘅信心度同資料來源,讓用家更清楚判斷資訊可信程度。對媒體同公眾而言,教育用家識別AI嘅侷限同錯誤,絕對係長遠之計。

總括而言,AI係強大嘅輔助工具,但唔係萬能嘅「真理機器」。保持懷疑精神,持續驗證,先係善用AI嘅正確態度。香港用戶尤其要留意,因為本地語境同文化特色,AI嘅資料庫未必夠完善,誤差可能更大。

以上文章由GPT 所翻譯及撰寫。而圖片則由GEMINI根據內容自動生成。

🔥 CHATGPT PLUS 帳戶出租

唔使外國信用卡、送埋 VPN,輕鬆即用!

1個月 HK$118|1年 HK$1288|獨立帳號 🎁

💳 支援 PayMe / 轉數快 / Alipay / 信用卡

✨ 我哋亦可以代升級你的帳戶!

🚀 即刻睇詳情