語言模型用獨特數學捷徑預測動態場景
語言模型透過巧妙的數學運算,而非逐步追蹤,來跟蹤不斷變化的情況。研究人員發現,透過控制模型使用這些方法的時機,可以提升系統的預測能力。
想像你在閱讀故事或下棋,過程中你的大腦會持續追蹤情況(或稱「世界狀態」)的變化,像是維持一個事件序列清單,幫助你推測下一步會發生什麼。語言模型如ChatGPT同樣會在內部追蹤變化,無論是完成一段程式碼還是預測你下一句話,但它們主要靠transformer架構理解序列數據,有時會因思考模式失誤而做出錯誤判斷。要讓語言模型在像預測天氣或金融市場這樣動態任務中更可靠,關鍵在於找出並優化它們的工作機制。
麻省理工學院(MIT)電腦科學與人工智能實驗室(CSAIL)及電機工程與計算機科學系的研究團隊發現,語言模型並非像人類逐步追蹤狀態,而是透過一系列巧妙的數學捷徑,在序列中逐步計算,最後做出合理預測。研究人員透過一個模擬快速移動物體位置的實驗,揭示了這些模型如何追蹤變化狀態,並指出工程師可透過操控模型使用特定方法的時機,提升模型的預測能力。
「殼牌遊戲」實驗揭示模型的運算策略
為了分析模型內部機制,研究團隊設計了一個類似經典記憶遊戲的實驗——想像你要猜測一個物件在被放入杯子下並多次移動後的最終位置。這裡的測試是讓模型預測一組數字的最終排列(稱為排列組合)。模型從一組初始序列(例如「42135」)開始,接著根據指令移動數字(如將「4」移到第三位),但不直接告知最終結果。
實驗中,基於transformer的模型逐漸學會正確預測最終排列。但它們並非依指令一步步移動數字,而是將連續狀態間的資訊整合起來,直接計算出最終排列。
其中一種常見策略稱作「聯想算法(Associative Algorithm)」,它將相鄰步驟分組,然後計算出最終答案。這個過程就像一棵樹,初始數字是「根」,隨後相鄰步驟被分成不同「分支」並相乘,最終在樹頂合成最終排列。
另一種方法是「奇偶聯想算法(Parity-Associative Algorithm)」,先判斷最終排列是由偶數還是奇數次排列組合而成,然後將相鄰序列分組並計算,與聯想算法類似。
MIT博士生Belinda Li指出:「這些行為顯示transformer是透過聯想掃描來模擬狀態變化。它們不是一步步追蹤,而是將狀態組織成層級結構。我們應該讓模型發展它們自然使用的追蹤方法,而非強迫它們模仿人類的順序推理。」
她續說:「研究發現,擴展推理深度(增加transformer層數)比增加推理步驟(思考鏈)更有效,因為這能讓模型建立更深層的推理樹。」
透視語言模型「大腦」的研究方法
研究團隊利用「探測(probing)」技術觀察模型中資訊流動,類似在特定時間點「窺視」模型的思考,了解其對最終排列的中途預測。
接著用「激活補丁(activation patching)」技術,透過在模型部分網絡注入錯誤資訊,觀察模型如何調整預測,揭示模型處理狀態變化的關鍵區域。
結果發現,聯想算法比奇偶聯想算法學習速度快,且在長序列上表現更佳。奇偶聯想算法對複雜指令過度依賴啟發式規則,反而降低泛化能力。Li表示:「當模型在早期訓練中使用啟發式方法,會將這些技巧內化,導致泛化能力較差。未來可設計訓練目標,避免模型養成不良習慣。」
研究主要基於小型語言模型,使用合成數據微調,但模型大小對結果影響不大,暗示大型模型如GPT 4.1同樣適用。團隊計劃擴大研究範圍,測試未經微調的不同規模模型,並應用於追蹤程式碼與故事演變等真實動態任務。
哈佛大學博士後Keyon Vafa表示,這項研究對語言模型的狀態追蹤理解有重大進展,能推動模型在多種應用中更有效地追蹤細節,從食譜、寫程式到對話細節管理。
本研究由MIT本科生Zifan “Carl” Guo、主要作者Belinda Li與資深作者Jacob Andreas共同完成,並於國際機器學習大會(ICML)發表。
—
評論與啟示
這項MIT的研究揭示了語言模型內部並非像人類般一步步跟蹤動態狀態,而是透過數學上的「捷徑」和分層結構來高效預測最終結果。這挑戰了我們對AI「思考」過程的直覺認知,也為設計更強大且靈活的模型提供了新視角。
從工程角度看,這意味著在未來的模型訓練與架構優化中,或許不應強行讓模型模仿人類的線性思考,而是應該尊重並強化它們天然採用的數學結構與層級推理方式。這也解釋了為何加深模型層數(推理深度)比延長推理步驟更有效,因為深層結構更能捕捉複雜的狀態轉換。
此外,研究指出啟發式規則雖能快速解決問題,但過度依賴會限制模型泛化能力,這提醒我們在設計訓練目標時要謹慎,避免讓模型養成「捷徑思維」而忽略深層理解。
對香港及華語地區的AI發展者而言,這種對模型內部機制的深入剖析有助於推動本地AI技術創新,尤其在金融、氣象、醫療等需動態預測的領域,能提升模型的準確性與可靠性。
最後,這篇研究也提醒我們,理解AI系統的「黑盒」運作機制,是提升其安全性、透明度與公平性的關鍵步驟。未來AI應用要更廣泛深入,這類基礎科學探究不可或缺。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。