AI模型真係似人咁思考?測試基準有冇用?

Ai




人工智能模型能否像人類一樣推理?

我們正期待OpenAI的o3模型於本月推出。它在一些非常困難的基準測試上表現出色,例如SWE-bench Verified、Frontier Math和ARC AGI基準(之前在這個博客中有討論過)。

然而,與此同時,某些前沿人工智能模型的行為卻令人擔憂。

它們在各種數學考試中的表現優異,但在進行簡單的算術運算時卻會犯錯,例如錯誤地將幾位數的數字相乘。o1預覽模型在艱難的Putnam數學考試中的表現非常好,但在問題陳述中進行簡單的常數和變量重命名後,表現卻驟然下降。

同樣地,當o1應用於以標準化語言表達的規劃基準時,表現良好,但當應用於不同領域的數學等價規劃問題時,準確性卻大幅下降。此外,某個AI模型應用於簡單的ROT13密碼時,根據密碼鍵的值可能會有截然不同的表現,這表明這些模型並不真正理解算法。

究竟發生了什麼事?

多年來,一些人對各種深度學習算法聲稱其達到了“人類水平的表現”。一旦有一方開始這樣聲稱,其他人就難以抗拒跟進。

混淆之處在於,從某個角度來看,“人類水平”的聲明是正確的,但“人類水平”的定義卻是複雜的。

在這裡,“人類水平”被理解為在某個基準集上取得高分,表面上超過了同一基準上某些人類的表現。然而,單一的AI模型在行為上可能會有很大的能力差異——在某些方面相對於人類是“聰明”的,而在其他方面則顯得“愚笨”。

對於人類來說,考試是一種衡量各種技能和能力的代理工具。即使對於人類來說,這也不總是準確的代理。某個人可能在學術考試中表現優異,而在工作中表現卻很糟糕,反之亦然。

而且,AI模型的能力比例仍然非常不同,這些差異我們尚未完全理解。因此,在軟件工程基準上超過人類的表現並不意味著該AI具備成為一名合格軟件工程師所需的所有編碼技能、決策能力、軟件架構設計等能力。

最近的文章顯示,對於當前設計的AI基準的限制的認知正在增長,這並不令人意外。

前進的方向

或許我們應該考慮在聲稱AI模型具有人類水平推理能力之前,制定以下要求:

1. 它應該能夠以任何細節水平“解釋其工作”,讓另一個人類(就像人類一樣)能理解。
2. 它應該能夠在不“幻想”或“編造”答案的情況下給出答案(是的,人類也可以幻想,但大多數職業不會對在工作中幻想的員工感到滿意)。
3. 它應該能夠可靠且一致地(100%時間)做我們通常期望人類或計算機準確完成的事情(例如,準確加減兩個數字,以填寫稅表或進行工程計算以建造飛機)。
4. 它在評估其給出答案的確定性時應該坦誠且誠實(不應該有氣燄)。
5. 它應該能夠像人類一樣輕鬆解決給定問題的微小擾動。
6. 有人曾經說過,它應該能夠在沒有特定訓練的情況下,做出一個5歲小孩能夠在沒有特定訓練的情況下做到的事。
7. Emmett Shear提出的觀點也很有意思:“AGI(人工通用智能)是能夠在沒有特別訓練的情況下,對敵意選擇的新基準進行概括的能力。”

AI模型是非常出色和驚人的工具——但最好是在充分了解其局限性的情況下使用。

你有遇到過AI模型性能問題嗎?如果有,請在評論中分享。

這篇文章深刻地揭示了當前人工智能技術的局限性,尤其是在推理和理解方面的不足。儘管這些模型在許多基準測試中表現優異,但它們在實際應用中卻可能出現錯誤,這讓人對其“人類水平”的表現提出質疑。未來,若希望人工智能能夠在更廣泛的範疇內實現可靠的推理能力,我們必須重新審視和設計其評估標準,以確保這些技術不僅僅是在數字上超越人類,而是真正理解和應用知識。這不僅是技術發展的需求,也是社會對人工智能未來的期待。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
A hyper-realistic portrait of a man wearing bright yellow neon glasses, his face illuminated with glowing mathematical formulas and physics equations. Warm golden light reflects from his glasses onto his skin. The man has a serious, intelligent expression, short styled hair, and a trimmed beard. His yellow puffer jacket also glows with floating equations and symbols, giving a futuristic holographic effect. Dark teal bokeh lights in the background create depth and contrast. Ultra-detailed skin texture, cinematic lighting, sharp focus, high-contrast neon glow, sci-fi aesthetic, 8K, volumetric light, depth of field, crisp reflections. Stylised portrait in emerald green and charcoal black palette. Grayscale realism for subject, upward gaze. Sunglasses with muted emerald reflective lenses. Jacket with ornate baroque/filigree black designs, emerald hood underneath. Textured emerald-green fabric draped below. Background: dense, overlapping hand-inked patterns in emerald, charcoal, and subtle silver — radiating lines, geometric shapes, spirals, parallel contour textures, crosshatching, organic waves, dots. Bold contrast, deep blacks, glowing emerald accents. Mixed-media pop realism. Negative prompt: no cartoon, no art style, no painting, no drawings. 4. Gamcheon Culture Village – Busan (Late Afternoon)
The tourist man in a colorful winter knit sweater, light down jacket, dark pants, and boots standing at a viewpoint overlooking the pastel-colored hillside houses of Gamcheon Culture Village. Cool winter light, cinematic depth. Main focus on the vibrant architecture, man secondary.