AI計算錯足四成!邊個chatbot數學最叻?

Ai




AI喺簡單數學上準確度大曝光:500條日常題目測試顯示錯誤率高達四成

人工智能(AI)已經成為我哋日常生活一部分,連簡單計數都開始仰賴佢,但究竟AI喺基本數學問題上有幾準確?用家又應該點信任佢呢?最近一項研究提醒大家要小心。

Omni Research on Calculation in AI(簡稱ORCA)最新報告指出,當用AI聊天機器人解答日常數學問題時,大約有40%機會答錯。不同AI公司嘅表現差異明顯,而唔同類型嘅數學題目準確度亦有好大分別。

咁邊款AI工具準確度較高?佢哋喺統計、財經、物理等唔同範疇嘅表現又係點?

研究團隊用500條真實世界嘅可計算問題,測試咗五款AI模型,全部用同一套題目,時間係2025年10月。五款AI分別係:

– ChatGPT-5(OpenAI)
– Gemini 2.5 Flash(Google)
– Claude 4.5 Sonnet(Anthropic)
– DeepSeek V3.2(DeepSeek AI)
– Grok-4(xAI)

結果顯示,冇一款AI嘅日常數學準確率超過63%。領先者係Google嘅Gemini,準確率63%,即係大約每十題錯四題。Grok緊隨其後,62.8%,DeepSeek得52%,ChatGPT得49.4%,Claude最低得45.2%。五款模型簡單平均準確率係54.5%。

ORCA聯合作者Dawid Siuda提醒,雖然排名可能會有變,但整體結論唔會變:現時AI模型喺數字準確度方面依然係弱項。

數學及單位轉換最準,物理題最難

喺七大類別中,數學及轉換題(147條)準確度最高,五款AI平均72.1%。Gemini以83%領先,Grok 76.9%,DeepSeek 74.1%,ChatGPT 66.7%。

相反,物理題(128條)係最難,整體平均只得35.8%。Grok最高43.8%,Gemini 43%,Claude最低26.6%。

Gemini同Grok喺七個類別中各有三個冠軍,仲有一個並列第一。

DeepSeek喺生物化學類表現最差,只得11%

DeepSeek喺生物及化學類準確率只有10.6%,即係九成問題答錯。

最大分野出現喺財經經濟類,Grok同Gemini準確率達76.7%,其餘三款(ChatGPT、Claude、DeepSeek)都低於50%。

用家警告:重要計算務必用計算機再核實

Siuda建議:「如果有重要計算,最好用計算機或可信來源,或者至少用另一款AI核對。」

AI錯誤主要有四種

報告將錯誤分為四大類,主要挑戰係點將現實問題「翻譯」成正確數學公式:

1. 「粗心計算」錯誤(佔68%):AI理解題目及公式,但計算時出錯,包括精度及四捨五入問題(35%)及純粹計算錯誤(33%)。例如,問「喺76個球中抽6個,配中5個機率幾多?」正確答案係1/520521,但ChatGPT-5計出1/401397。

2. 「邏輯錯誤」(26%):AI未能理解問題背後邏輯,包括公式用錯(14%)及錯誤假設(12%)。

3. 「誤讀題意」(5%):AI未能正確解讀題目要求,例如用錯參數或答非所問。

4. 「放棄回答」錯誤:部分情況AI拒絕答題或轉移話題。

Siuda指出:「AI喺多步計算中嘅四捨五入係最大弱點,結果往往偏差好大。」

呢次研究用嘅係市面上公開免費用到嘅最先進模型,每條問題都只有唯一正確答案。

評論與深入分析:

呢份研究喺AI準確度方面提供咗一個好有啟發性嘅視角,尤其係當大家普遍認為AI已經「無所不能」嘅時候,數學錯誤率竟然高達四成,實在令人警惕。AI模型嘅強項唔係純計算,而係語言理解同資料整合,呢啲結果反映咗目前AI嘅底層限制。

最有趣係,Google嘅Gemini同xAI嘅Grok表現最好,反映大型科技公司持續投入資源喺數學計算優化上,但連佢哋都未能做到接近完美,顯示呢個領域仍有巨大改進空間。DeepSeek喺生物化學類表現極差,提醒我哋唔好盲目相信某啲專業領域嘅AI答案,尤其係涉及複雜科學計算。

而且,AI最大嘅錯誤來源係「粗心計算」同「邏輯錯誤」,即係話AI唔係唔識數學公式,而係喺運算同邏輯推理上仍有明顯瑕疵。呢點對AI未來發展有啟示:除咗提升語言理解,研發者應該更注重強化AI嘅計算精度同邏輯推理能力,或者結合專門嘅數學計算引擎。

對用家嚟講,呢份報告係一個重要提示:無論AI幾先進,喺做重要決定前都唔好單靠佢,特別係財務、物理、科學計算,最好用傳統計算機或專業工具雙重核實。

總括而言,AI喺數學上仍處於「半成熟」階段,未能完全取代人類嘅專業判斷同精確計算。未來AI發展不應只追求語言交互嘅流暢,更要重視數學運算嘅嚴謹性,先至能真正成為可靠嘅智能助手。

以上文章由GPT 所翻譯及撰寫。而圖片則由GEMINI根據內容自動生成。

📣 即刻用 Google Workspace|唔使vpn都能享用 Google AI Pro

即使你只係一個人,都可以透過 Google Workspace 使用 官方Gemini AI Pro(原價 HK$160), 而在 Google Workspace 只要 HK$131 / 月

🔓 14 天免費試用
🔖 用呢條連結申請再有 額外 9 折
🇭🇰 香港可直接付款(香港信用卡)
🛡️ 不用 VPN,立即開用
🤖 可用 最新最紅Gemini 3 Pro & Nano Banana Pro
👉 立即登記 14 天免費試用 + 額外 9 折