大型語言模型能否真正理解現實世界?MIT與哈佛提出新測試方法
早在17世紀,德國天文學家開普勒(Johannes Kepler)發現了行星運動的規律,讓人們能準確預測太陽系內行星的軌跡。但直到數十年後,牛頓(Isaac Newton)提出萬有引力定律,才真正揭示了這些運動背後的基本原理。牛頓的理論不僅解釋了行星運動,還能應用於大砲彈道、潮汐變化,甚至太空衛星發射等多個領域。
如今,人工智能(AI)系統在進行具體預測方面表現出色,類似開普勒的軌道預測。但問題是,這些AI是否真正理解了預測背後的深層原理,像牛頓理論那樣擁有跨領域的世界模型?隨著社會對AI依賴日增,研究人員正努力尋找方法,評估AI系統對現實世界的理解深度。
麻省理工學院(MIT)資訊與決策系統實驗室(LIDS)與哈佛大學的研究團隊近日提出一種新方法,來檢驗AI系統是否能將某領域的預測能力,轉化為對更廣泛現實世界的理解,並能應用於不同領域。初步結果顯示,現時AI系統在這方面的能力仍相當有限。
該研究團隊包括哈佛博士後Keyon Vafa、MIT電機工程及計算機科學研究生Peter G. Chang、MIT助理教授Ashesh Rambachan,以及MIT教授Sendhil Mullainathan。這項研究於近期在加拿大溫哥華舉行的國際機器學習會議(ICML)上發表。
Vafa指出,人類能夠從具體預測進一步構建起世界模型,但現有基礎模型(foundation models)或AI是否已經達到這一步,仍是個問題。他強調,研究焦點並非AI是否有潛力,而是「目前為止,它們做到了嗎?」
Mullainathan教授補充,雖然檢驗算法預測準確度已有成熟方法,但如何測試AI是否「真正理解」其預測內容,甚至定義「理解」本身都充滿挑戰。
以開普勒與牛頓的類比來說,兩者都能準確模擬特定任務,但牛頓的理論能夠推廣到新問題和不同場景。若AI能擁有類似能力,便能超越單一任務,推廣到更多複雜問題。
另一個比喻是,長期以來人類靠經驗培育作物和動物,但孟德爾(Gregor Mendel)發現了遺傳的基本法則,這種抽象理解讓科學進步更快。
研究團隊針對不同複雜度的AI預測系統進行測試。最簡單的例子是一維格子模型(lattice model),類似青蛙在一排蓮葉間跳躍,AI僅透過青蛙的跳躍指令,判斷蓮葉的排列結構。結果顯示,AI在此類簡單模型中能成功還原「世界狀態」。但隨著維度和狀態數增加,AI的判斷能力明顯下降。
更複雜的測試是「黑白棋」(Othello)遊戲,AI能準確預測允許的落子,但無法推斷整個棋局的真實狀態,尤其是被封鎖的棋子。
團隊還評估了五種不同類型的實際預測模型,發現系統越複雜,越難建立與現實相符的世界模型。
為此,研究人員提出一種新指標「歸納偏差」(inductive bias),用以量化AI系統對現實世界狀態的近似程度。這指標反映AI是否能從大量數據中推斷出符合現實的內在規律。
Vafa表示,這個指標可作為評估平台,幫助研究人員在已知真實模型的情況下測試AI表現,進而提升對未知領域預測的信心。
目前已有科學家嘗試利用AI預測化學化合物、藥物分子、蛋白質摺疊等未知領域的特性,但Vafa坦言,即使是基本物理力學問題,AI距離真正理解還有很長路要走。
Chang指出,儘管基礎模型在各領域如生物、物理、機械人學等積累大量數據並訓練,期望AI能內化這些領域知識以應用於多種任務,但現實情況是,這條路仍充滿挑戰。
這項研究不僅揭示了當前AI理解能力的不足,也為未來優化訓練方法和評估標準提供了方向。Chang強調,「一旦有了量化指標,工程師就能針對該指標優化系統,推動技術進步。」
—
評論與啟示
這篇來自MIT與哈佛的研究,深刻揭示了當前AI雖然在特定任務上能呈現驚人預測力,但距離真正理解世界、建立跨領域的通用世界模型仍有顯著差距。這對香港乃至全球的AI發展皆有重要啟示。
首先,這提醒我們不要過度迷信AI的「智慧」,尤其是基於大數據訓練的模型,往往依賴模式匹配而非本質理解。這種「表層智能」在面對新問題時可能脆弱,容易出錯。
其次,該研究提出的「歸納偏差」指標,為AI理解力提供了可量化的評估標準,這對推動AI向更高層次的「知識內化」至關重要。香港的科研和企業若能採納類似指標,將更有利於培育具備真正推廣能力的AI系統,而非僅僅是「黑盒」預測工具。
此外,研究中提到的類比(如開普勒與牛頓、經驗育種與孟德爾遺傳定律)非常適合用來教育公眾與業界,幫助他們理解AI現階段的局限與未來潛力,避免盲目期待或恐慌。
最後,這也提醒政策制定者與投資者,AI技術的發展不應只看短期應用效益,更要注重基礎理論與跨領域的理解能力提升。只有這樣,AI才能真正成為推動社會科技進步的強大引擎。
總結來說,這項研究為AI的發展指明了「從預測到理解」的必經之路,也為我們提供了檢驗和推動AI進步的有效工具。香港作為科技創新重鎮,應積極關注並參與此類前沿研究,推動本地AI產業走向更具智慧與可持續的未來。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。