AI計算錯足四成！邊個chatbot數學最叻？

zero comment

AI喺簡單數學上準確度大曝光：500條日常題目測試顯示錯誤率高達四成

人工智能（AI）已經成為我哋日常生活一部分，連簡單計數都開始仰賴佢，但究竟AI喺基本數學問題上有幾準確？用家又應該點信任佢呢？最近一項研究提醒大家要小心。

Omni Research on Calculation in AI（簡稱ORCA）最新報告指出，當用AI聊天機器人解答日常數學問題時，大約有40%機會答錯。不同AI公司嘅表現差異明顯，而唔同類型嘅數學題目準確度亦有好大分別。

咁邊款AI工具準確度較高？佢哋喺統計、財經、物理等唔同範疇嘅表現又係點？

研究團隊用500條真實世界嘅可計算問題，測試咗五款AI模型，全部用同一套題目，時間係2025年10月。五款AI分別係：

– ChatGPT-5（OpenAI）
– Gemini 2.5 Flash（Google）
– Claude 4.5 Sonnet（Anthropic）
– DeepSeek V3.2（DeepSeek AI）
– Grok-4（xAI）

結果顯示，冇一款AI嘅日常數學準確率超過63%。領先者係Google嘅Gemini，準確率63%，即係大約每十題錯四題。Grok緊隨其後，62.8%，DeepSeek得52%，ChatGPT得49.4%，Claude最低得45.2%。五款模型簡單平均準確率係54.5%。

ORCA聯合作者Dawid Siuda提醒，雖然排名可能會有變，但整體結論唔會變：現時AI模型喺數字準確度方面依然係弱項。

數學及單位轉換最準，物理題最難

喺七大類別中，數學及轉換題（147條）準確度最高，五款AI平均72.1%。Gemini以83%領先，Grok 76.9%，DeepSeek 74.1%，ChatGPT 66.7%。

相反，物理題（128條）係最難，整體平均只得35.8%。Grok最高43.8%，Gemini 43%，Claude最低26.6%。

Gemini同Grok喺七個類別中各有三個冠軍，仲有一個並列第一。

DeepSeek喺生物化學類表現最差，只得11%

DeepSeek喺生物及化學類準確率只有10.6%，即係九成問題答錯。

最大分野出現喺財經經濟類，Grok同Gemini準確率達76.7%，其餘三款（ChatGPT、Claude、DeepSeek）都低於50%。

用家警告：重要計算務必用計算機再核實

Siuda建議：「如果有重要計算，最好用計算機或可信來源，或者至少用另一款AI核對。」

AI錯誤主要有四種

報告將錯誤分為四大類，主要挑戰係點將現實問題「翻譯」成正確數學公式：

1. 「粗心計算」錯誤（佔68%）：AI理解題目及公式，但計算時出錯，包括精度及四捨五入問題（35%）及純粹計算錯誤（33%）。例如，問「喺76個球中抽6個，配中5個機率幾多？」正確答案係1/520521，但ChatGPT-5計出1/401397。

2. 「邏輯錯誤」（26%）：AI未能理解問題背後邏輯，包括公式用錯（14%）及錯誤假設（12%）。

3. 「誤讀題意」（5%）：AI未能正確解讀題目要求，例如用錯參數或答非所問。

4. 「放棄回答」錯誤：部分情況AI拒絕答題或轉移話題。

Siuda指出：「AI喺多步計算中嘅四捨五入係最大弱點，結果往往偏差好大。」

呢次研究用嘅係市面上公開免費用到嘅最先進模型，每條問題都只有唯一正確答案。

—

評論與深入分析：

呢份研究喺AI準確度方面提供咗一個好有啟發性嘅視角，尤其係當大家普遍認為AI已經「無所不能」嘅時候，數學錯誤率竟然高達四成，實在令人警惕。AI模型嘅強項唔係純計算，而係語言理解同資料整合，呢啲結果反映咗目前AI嘅底層限制。

最有趣係，Google嘅Gemini同xAI嘅Grok表現最好，反映大型科技公司持續投入資源喺數學計算優化上，但連佢哋都未能做到接近完美，顯示呢個領域仍有巨大改進空間。DeepSeek喺生物化學類表現極差，提醒我哋唔好盲目相信某啲專業領域嘅AI答案，尤其係涉及複雜科學計算。

而且，AI最大嘅錯誤來源係「粗心計算」同「邏輯錯誤」，即係話AI唔係唔識數學公式，而係喺運算同邏輯推理上仍有明顯瑕疵。呢點對AI未來發展有啟示：除咗提升語言理解，研發者應該更注重強化AI嘅計算精度同邏輯推理能力，或者結合專門嘅數學計算引擎。

對用家嚟講，呢份報告係一個重要提示：無論AI幾先進，喺做重要決定前都唔好單靠佢，特別係財務、物理、科學計算，最好用傳統計算機或專業工具雙重核實。

總括而言，AI喺數學上仍處於「半成熟」階段，未能完全取代人類嘅專業判斷同精確計算。未來AI發展不應只追求語言交互嘅流暢，更要重視數學運算嘅嚴謹性，先至能真正成為可靠嘅智能助手。

以上文章由GPT 所翻譯及撰寫。而圖片則由GEMINI根據內容自動生成。

Download TXT

🔥 CHATGPT PLUS 帳戶出租