MIT新技術助大型語言模型強化複雜推理能力

Ai




研究發現有助大型語言模型提升複雜推理能力

麻省理工學院(MIT)的研究團隊開發出一種方法,能令大型語言模型(LLM)更靈活地應對如策略規劃或流程優化這類具挑戰性的任務。

儘管大型語言模型在很多應用上表現出色,例如會計師事務所的模型能準確總結財務報告,但當面對需要複雜推理的任務,例如預測市場趨勢或辨識詐騙交易,這些模型往往難以應付。

為了讓大型語言模型更適應新穎且困難的問題,MIT研究人員探討了一種稱為「測試時訓練」(test-time training)的技術。這種方法在模型運行時會臨時更新部分內部參數,從而大幅提升模型的準確率,最高可達六倍。研究團隊亦建立了一套框架,利用新任務的範例來最大化測試時訓練的效益。

這項技術有望令現成的語言模型能靈活應對需要規劃或抽象思考的複雜任務,從而提升在醫療診斷、供應鏈管理等需邏輯推理的應用上的準確性。

研究的首席作者Ekin Akyürek博士表示:「真正的學習——就像我們用測試時訓練做的——是這些模型在出廠後無法自行完成的。它們無法獲得新技能或提升任務表現。但我們證明,只要稍微推動模型進行真正的學習,性能便能顯著提升。」

參與研究的還有研究生Mehul Damani、Linlu Qiu、Han Guo及Jyothish Pari,和本科生Adam Zweiger。資深作者包括電機與計算機科學系(EECS)助理教授Yoon Kim及副教授Jacob Andreas。該研究成果將於國際機器學習會議發表。

攻克難題的策略

用戶常用「上下文學習」(in-context learning)來提升模型在新任務上的表現,即通過給模型提供任務範例作為提示,指導其輸出。但這種方法對需要邏輯和推理的問題效果有限。

MIT團隊研究如何結合測試時訓練和上下文學習,利用測試時訓練在模型內部參數上作小規模更新,以適應任務特定的新數據,從而提升性能。

他們發現,測試時訓練比單純提供範例的上下文學習更能顯著提高準確率,尤其在挑戰性較高的領域表現更佳。為擴充任務數據集,團隊還創造了新輸入,如對範例中的問題和答案做水平翻轉等變換,結果顯示用這些擴充數據進行訓練效果最佳。

此外,研究使用一種稱為低秩適應(low-rank adaptation)的技術,只更新少量模型參數,令測試時訓練更高效。

Akyürek補充:「這點很重要,因為若要在現實中部署,我們的方法必須高效。我們發現只需極少量參數調整,就能帶來巨大準確度提升。」

培養模型新技能

由於測試時訓練是針對每個任務個別進行,且更新是暫時性的,模型在完成預測後會恢復原狀。這意味著雖然通常查詢只需不到一分鐘,但使用測試時訓練可能需時五至十分鐘。

Akyürek指出:「我們不會為所有查詢都用這方法,但若遇到非常困難的任務,這樣做非常有用。有些任務若不採用此法,模型根本無法解決。」

研究團隊在兩組極具挑戰性的基準數據集(如智力測驗謎題)上測試方法,結果準確率提升高達六倍。對於結構化模式或完全陌生資料類型的任務,性能提升尤為明顯。

Damani說:「對較簡單任務,上下文學習可能已經足夠,但實際更新模型參數能讓它獲得新技能。」

未來,團隊希望基於這些發現,研發能持續學習的模型。最終目標是打造一款大型語言模型,能自動判斷是否需要透過測試時訓練更新參數,或只靠上下文學習解決任務,並無需人工介入便能執行最佳策略。

這項研究部分由MIT-IBM Watson AI實驗室及美國國家科學基金會支持。

編輯評論與深入分析

MIT這項突破性的研究,為大型語言模型的實用性和靈活性帶來了全新視野。過往LLM在面對複雜推理和策略規劃時往往力不從心,主要因為其訓練完成後無法自主學習新技能,限制了應用範圍和深度。測試時訓練的引入,猶如賦予這些模型「即時學習」的能力,讓它們能根據新任務快速調整內部參數,這不單止提升了準確率,更讓模型在面對前所未有的挑戰時變得更有彈性。

這種方法的高效性亦值得注意,研究團隊巧妙地結合低秩適應技術,避免了大規模參數更新帶來的計算負擔,這對實際部署至關重要。畢竟,在商業和工業應用中,時間和資源成本往往是決定技術能否落地的關鍵。

然而,測試時訓練目前仍需為每個任務獨立執行,耗時較長,這限制了它在日常快速查詢中的普及。不過,研究團隊提出的未來方向——自主判斷何時使用測試時訓練,並自動執行最佳策略——無疑是解決這一瓶頸的關鍵。若能實現,將可能徹底改寫LLM的工作方式,讓它們更像具備持續學習能力的智能體,而非一成不變的工具。

此外,這項研究也提醒我們,機器學習的未來不僅是模型架構的創新,更在於如何讓模型「活起來」——能夠根據環境和任務需求不斷自我調整和成長。這與人類學習的本質更為接近,也為人工智能向更高階的「智能」演進鋪路。

總括而言,MIT的這項工作不僅為提升LLM複雜推理能力開闢了新路,更引發了對機器學習模式本質的深刻思考。未來如何平衡模型即時學習的能力與運算成本,及如何實現完全自動化的學習策略,將是推動AI技術進步的重要課題。這將對醫療、金融、供應鏈等多個關鍵領域帶來革命性的影響,值得業界和學界持續關注。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

📣 即刻用 Google Workspace|唔使vpn都能享用 Google AI Pro

即使你只係一個人,都可以透過 Google Workspace 使用 官方Gemini AI Pro(原價 HK$160), 而在 Google Workspace 只要 HK$131 / 月

🔓 14 天免費試用
🔖 用呢條連結申請再有 額外 9 折
🇭🇰 香港可直接付款(香港信用卡)
🛡️ 不用 VPN,立即開用
🤖 可用 最新最紅Gemini 3 Pro & Nano Banana Pro
👉 立即登記 14 天免費試用 + 額外 9 折