AI模型真係似人咁思考？測試基準有冇用？

zero comment

人工智能模型能否像人類一樣推理？

我們正期待OpenAI的o3模型於本月推出。它在一些非常困難的基準測試上表現出色，例如SWE-bench Verified、Frontier Math和ARC AGI基準（之前在這個博客中有討論過）。

然而，與此同時，某些前沿人工智能模型的行為卻令人擔憂。

它們在各種數學考試中的表現優異，但在進行簡單的算術運算時卻會犯錯，例如錯誤地將幾位數的數字相乘。o1預覽模型在艱難的Putnam數學考試中的表現非常好，但在問題陳述中進行簡單的常數和變量重命名後，表現卻驟然下降。

同樣地，當o1應用於以標準化語言表達的規劃基準時，表現良好，但當應用於不同領域的數學等價規劃問題時，準確性卻大幅下降。此外，某個AI模型應用於簡單的ROT13密碼時，根據密碼鍵的值可能會有截然不同的表現，這表明這些模型並不真正理解算法。

究竟發生了什麼事？

多年來，一些人對各種深度學習算法聲稱其達到了“人類水平的表現”。一旦有一方開始這樣聲稱，其他人就難以抗拒跟進。

混淆之處在於，從某個角度來看，“人類水平”的聲明是正確的，但“人類水平”的定義卻是複雜的。

在這裡，“人類水平”被理解為在某個基準集上取得高分，表面上超過了同一基準上某些人類的表現。然而，單一的AI模型在行為上可能會有很大的能力差異——在某些方面相對於人類是“聰明”的，而在其他方面則顯得“愚笨”。

對於人類來說，考試是一種衡量各種技能和能力的代理工具。即使對於人類來說，這也不總是準確的代理。某個人可能在學術考試中表現優異，而在工作中表現卻很糟糕，反之亦然。

而且，AI模型的能力比例仍然非常不同，這些差異我們尚未完全理解。因此，在軟件工程基準上超過人類的表現並不意味著該AI具備成為一名合格軟件工程師所需的所有編碼技能、決策能力、軟件架構設計等能力。

最近的文章顯示，對於當前設計的AI基準的限制的認知正在增長，這並不令人意外。

前進的方向

或許我們應該考慮在聲稱AI模型具有人類水平推理能力之前，制定以下要求：

1. 它應該能夠以任何細節水平“解釋其工作”，讓另一個人類（就像人類一樣）能理解。
2. 它應該能夠在不“幻想”或“編造”答案的情況下給出答案（是的，人類也可以幻想，但大多數職業不會對在工作中幻想的員工感到滿意）。
3. 它應該能夠可靠且一致地（100%時間）做我們通常期望人類或計算機準確完成的事情（例如，準確加減兩個數字，以填寫稅表或進行工程計算以建造飛機）。
4. 它在評估其給出答案的確定性時應該坦誠且誠實（不應該有氣燄）。
5. 它應該能夠像人類一樣輕鬆解決給定問題的微小擾動。
6. 有人曾經說過，它應該能夠在沒有特定訓練的情況下，做出一個5歲小孩能夠在沒有特定訓練的情況下做到的事。
7. Emmett Shear提出的觀點也很有意思：“AGI（人工通用智能）是能夠在沒有特別訓練的情況下，對敵意選擇的新基準進行概括的能力。”

AI模型是非常出色和驚人的工具——但最好是在充分了解其局限性的情況下使用。

你有遇到過AI模型性能問題嗎？如果有，請在評論中分享。

—

這篇文章深刻地揭示了當前人工智能技術的局限性，尤其是在推理和理解方面的不足。儘管這些模型在許多基準測試中表現優異，但它們在實際應用中卻可能出現錯誤，這讓人對其“人類水平”的表現提出質疑。未來，若希望人工智能能夠在更廣泛的範疇內實現可靠的推理能力，我們必須重新審視和設計其評估標準，以確保這些技術不僅僅是在數字上超越人類，而是真正理解和應用知識。這不僅是技術發展的需求，也是社會對人工智能未來的期待。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。