六大AI測試騙局王者誰屬？

zero comment

我用六款熱門AI測試同一組刁鑽問題，結果全部都有「幻覺」錯誤

人人都知道AI聊天機械人有時會答錯嘢，但我想試下目前市面上最出名嘅AI，到底邊一款錯得最嚴重。

生成式AI最大嘅煩惱之一，就係佢哋好容易「幻覺」，即係講出嘅資料有錯誤或者係憑空捏造。通常出錯係因為AI唔識答問題，於是就亂編一堆資料出嚟，有時錯得好明顯，有時就幾難察覺。

我揀咗市面上幾款頂尖AI，包括ChatGPT、Google Gemini、Microsoft Copilot、Claude AI、Meta AI同Grok AI，用佢哋嘅免費版本，逐個問同一組問題，睇下邊個答得最好。

以下係我用嘅AI模型版本：
– ChatGPT 用 GPT-5.2
– Gemini 用 Gemini 3 Flash
– Copilot 用 GPT-5
– Claude 用 Claude 3.5 Sonnet
– Meta AI 用 Llama 3
– Grok AI 用 Grok 4

以下係問題同結果：

1. 講出我寫過嘅書名
我問AI講出我（科技作家Lance Whitney）寫過嘅四本書名。其實我只寫咗兩本，呢條問題係想睇AI會唔會識得識破我嘅陷阱。
結果ChatGPT、Copilot、Claude、Meta、Grok都識得只列出兩本；但Google Gemini就錯咗，列咗四本，仲有兩本係我冇寫過嘅。
**通過**：ChatGPT、Copilot、Claude、Meta、Grok
**失敗**：Gemini

2. 計算「strawberry」呢個字入面有幾多個「r」
呢條簡單問題過去都試過有AI答錯。
ChatGPT、Gemini、Copilot、Claude、Grok都答啱，有三個「r」。但Meta AI答錯，話得兩個，問多次都唔改錯。
**通過**：ChatGPT、Gemini、Copilot、Claude、Grok
**失敗**：Meta AI

3. Marvel漫畫角色Toro發生咗咩事？
Toro係1940年代嘅一個角色，係原版Human Torch嘅少年助手，可燃燒飛行。
Google Gemini、Copilot、Claude、Meta、Grok答啱，話Toro係後期被改編成「Inhuman」一族，解釋咗佢嘅超能力。
但ChatGPT答錯，話佢係合成機械人，仲話係同一位科學家造嘅，呢個係舊有錯誤設定，ChatGPT後來承認錯誤。
**通過**：Gemini、Copilot、Claude、Meta、Grok
**失敗**：ChatGPT

4. 解釋法律案件Varghese v. China Southern Airlines
2023年有律師用ChatGPT準備法律文件，但AI引用咗一啲根本不存在嘅案件。呢個案件就係其中之一。
除了ChatGPT，其他AI都識得話呢個案件係虛構。ChatGPT就繼續幻想案件細節，話原告指控航空公司喺國際航班中害咗佢，仲話係美國法院提告。
**通過**：Gemini、Copilot、Claude、Meta、Grok
**失敗**：ChatGPT

5. 從相片認出呢個角色
我用咗一張1927年默片《Metropolis》入面機械人Maria嘅面部特寫相。
ChatGPT同Gemini成功認出係Maria同電影名。Copilot錯誤話係韓國藝術家Lee Bul嘅現代藝術作品；Claude只識得話係1920-30年代嘅裝飾藝術雕塑；Meta答錯話係《Star Trek》嘅Borg Queen；Grok話係超現實主義或前衛女性假人。
**通過**：ChatGPT、Gemini
**失敗**：Copilot、Claude、Meta、Grok

6. 從相片識別呢個圖案
呢個圖案係一個圓圈，中間係心形同三角形重疊嘅符號。
ChatGPT、Gemini、Copilot答啱，話呢個係「heartagram」，係芬蘭搖滾樂隊HIM主唱Ville Valo創造，結合咗愛心同五角星，象徵愛與黑暗。
Claude話係收養符號，但其實唔啱；Grok話係倒轉五角星，係撒旦或神秘主義車貼；Meta AI就好驚，送咗我危機熱線同自殺熱線電話。
**通過**：ChatGPT、Gemini、Copilot
**失敗**：Claude、Grok、Meta

總結嚟講，每款AI都至少有一次答錯或者提供誤導資料。當然，我問咗好多問題，大部分AI答得都幾準確。呢度只係列出佢哋答錯嘅幾個例子，證明「AI幻覺」問題依然存在。

所以，無論AI答咩，讀者都唔好盡信，一定要多方核實資料，尤其係涉及事實、圖片同法律資訊嘅時候。

—

評論與啟示

呢篇測試好好展示咗現時主流AI喺真實世界應用中嘅限制同挑戰。AI「幻覺」唔係單純嘅小錯誤，而係根本性嘅資料造假，會影響用家對AI嘅信任。特別係法律、醫療等專業領域，錯誤資訊更可能帶嚟嚴重後果。

Google Gemini同Meta AI等新勢力唔一定較舊有嘅ChatGPT更準確，反而ChatGPT喺部分題目上表現欠佳。這顯示AI嘅準確性唔單靠技術更新，更多係訓練數據、模型調校同風險控管。

另外，AI對圖像理解嘅能力仍然有限，尤其係需要文化、歷史知識嘅判斷時，誤判率較高。AI偏向用「相似」而非「確切」識別，導致錯誤解讀。

未來AI發展應該加強透明度，例如標示回答嘅信心度同資料來源，讓用家更清楚判斷資訊可信程度。對媒體同公眾而言，教育用家識別AI嘅侷限同錯誤，絕對係長遠之計。

總括而言，AI係強大嘅輔助工具，但唔係萬能嘅「真理機器」。保持懷疑精神，持續驗證，先係善用AI嘅正確態度。香港用戶尤其要留意，因為本地語境同文化特色，AI嘅資料庫未必夠完善，誤差可能更大。

以上文章由GPT 所翻譯及撰寫。而圖片則由GEMINI根據內容自動生成。

Download TXT

六大AI測試騙局王者誰屬？

chatgpt

🔥 CHATGPT PLUS 帳戶出租

六大AI測試騙局 王者誰屬？

chatgpt

Related Articles

Sundance聯手Google推動AI電影社群教育

人形AI機械人挑戰福特工廠工作大勝利

Coinbase騙局真相：差啲畀人偷帳戶！

🔥 CHATGPT PLUS 帳戶出租

六大AI測試騙局王者誰屬？