Apple揭AI推理模型真相:智力有限難突破瓶頸




蘋果質疑人工智能推理模型能力有限,研究指其難以應付複雜問題

蘋果公司於週末發表一份研究報告,指出現時針對推理能力的人工智能(AI)模型,在處理超出一定複雜程度的問題時,表現有限且無法產生準確結果。

這份題為《思考的錯覺:從問題複雜度角度理解推理模型的優勢與限制》的論文中,蘋果研究團隊表示,規模較大的推理模型(LRMs)在推理質素上存在明顯缺陷,未能發展出通用的解題能力。

研究人員測試了多款LRMs,包括OpenAI的O1/o3、DeepSeek-R1、Claude 3.7 Sonnet Thinking及Gemini Thinking,透過一系列複雜度逐漸增加的問題進行挑戰,這些問題亦跳出傳統AI測試基準的範疇。

蘋果研究團隊採用「可控謎題環境」來評估這些模型表現,結果發現隨著問題複雜度提升,這些LRMs的表現迅速下降,最終準確率幾乎歸零。

他們在論文中寫道:「我們發現最先進的LRMs(例如o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍未能培養出具通用性的解決問題能力,準確率在不同環境中隨著問題複雜度超過某個臨界點後,最終崩潰至零。」

研究亦指出,LRMs存在「根本性效率低下」及明顯的擴展限制,並對現時基於既定數學基準的評估方法提出質疑,強調他們設計的實驗方法更加嚴謹,利用算法謎題環境進行測試。

蘋果研究團隊質疑LRMs是否真能代表通向通用人工智能(AGI)的一大步。所謂通用AI,理論上能模仿人類廣泛的認知能力和解決問題的技巧,但目前仍屬高度理論化。

長期以來,通用AI一直是主要開發者追求的終極目標,但現時的AI模型,尤其是大型語言模型,主要依賴模式識別,透過預測序列中的下一個字詞來生成內容,這種方式仍然容易出錯,且限制了其推理能力。

蘋果此份研究報告發表之際,距離其全球開發者大會(WWDC)僅剩數天,外界對蘋果AI相關產品的期待普遍不高,因為蘋果在AI領域的發展明顯落後於競爭對手。

儘管蘋果與OpenAI合作,試圖在其旗艦產品中加入AI功能,但公司在推動其AI服務「Apple Intelligence」的承諾功能落實上依然面臨困難。

評論與啟示

蘋果此番研究成果,從一個強大科技巨頭的角度,嚴肅地審視現時AI推理模型的限制,為業界提供了重要的反思契機。這不僅反映了AI技術尚未達到理想的通用智能水平,也凸顯了過度依賴現有評估標準的問題。

在AI快速發展的浪潮中,蘋果的態度顯示出一種謹慎且科學的求真精神,提醒我們不能被當前的技術表象迷惑。特別是在大型語言模型盛行的時代,這些模型固然展現出驚人的語言生成能力,卻在真正的推理和解決複雜問題方面仍有重大瓶頸。

從市場角度來看,蘋果的保守態度或許反映其在AI產品策略上更為謹慎,這可能是為何其AI應用較競爭對手遲緩的原因之一。未來,AI的發展不應僅追求規模和數據量的擴大,更需要在算法本質和推理能力上尋求突破。

此外,蘋果提出的「可控謎題環境」測試方法,為AI模型的評價提供了新的視角和工具,或將成為推動AI技術更成熟的重要基礎。對香港及全球的科技行業而言,這些洞見提醒我們在迎接AI革命時,必須兼顧技術深度與實際應用的平衡,不可盲目跟風,否則可能在錯誤的方向上投入大量資源。

總括而言,蘋果的研究不僅是對AI技術現狀的挑戰,更是對整個AI生態系統提出的警示,促使業界重新思考如何打造真正具備「思考」能力的智能系統。這對香港科技界及用戶而言,都是一次寶貴的啟發。

以上文章由特價GPT API KEY所翻譯及撰寫。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

📣 即刻用 Google Workspace|唔使vpn都能享用 Google AI Pro

即使你只係一個人,都可以透過 Google Workspace 使用 官方Gemini AI Pro(原價 HK$160), 而在 Google Workspace 只要 HK$131 / 月

🔓 14 天免費試用
🔖 用呢條連結申請再有 額外 9 折
🇭🇰 香港可直接付款(香港信用卡)
🛡️ 不用 VPN,立即開用
🤖 可用 最新最紅Gemini 3 Pro & Nano Banana Pro
👉 立即登記 14 天免費試用 + 額外 9 折