MIT創新PaTH Attention提升大型語言模型長文理解力

Ai

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

麻省理工與IBM Watson AI實驗室研發新架構 提升大型語言模型處理長文本的能力

麻省理工學院(MIT)與IBM Watson AI實驗室的研究團隊,開發出一種名為「PaTH Attention」的全新編碼技術,能有效改善大型語言模型(LLMs)在長文本中對狀態追蹤和序列推理的表現,超越目前主流的旋轉位置編碼(RoPE)方法。

語言理解往往依賴詞語的順序和句法結構,例如「貓坐在盒子上」和「盒子在貓上」意義截然不同。當處理像財務文件或小說這類長篇文本時,詞語間的語境和結構會隨著篇幅演變。類似地,人工智能在追蹤代碼變量或條件指令時,也必須理解狀態變化和序列邏輯。現有的Transformer架構中所使用的注意力機制,雖然能判斷詞語的重要性,但在捕捉詞序和狀態變化方面仍有理論和實踐上的限制。

目前主流的RoPE方法,僅根據詞語間的相對距離,對詞語進行固定的數學旋轉編碼,忽略了詞語間的上下文和內容變化。換言之,距離相同的詞對無論語境如何,都會被賦予相同的編碼。

MIT-IBM團隊提出的PaTH Attention則突破這一限制,將詞語間的連結視為由多個小型、依賴數據內容的變換組成的路徑。這些變換基於數學上的Householder反射原理,猶如一面會根據經過內容調整角度的微型鏡子,讓模型能動態感知詞語間意義的演變,具備一種「位置記憶」功能。研究團隊同時設計了高效的硬件演算法,確保這種複雜計算能在GPU上快速執行。

在一系列合成與真實任務測試中,包括長文本推理、上下文追蹤、多步驟回憶等,PaTH Attention均優於RoPE及其他方法。它在未經訓練的推理基準上展現出更佳的困惑度(perplexity)和推理能力,並能處理數萬詞的長文本,顯示出強大的內容感知能力。

此外,研究團隊還將PaTH Attention與另一種可選擇性「遺忘」舊資訊的編碼方式Forgeting Transformer(FoX)結合,形成PaTH-FoX系統,使模型在推理和長文本理解上表現更穩定且有效,擴展了Transformer架構的表達能力。

MIT電機工程與計算機科學系副教授、此研究論文的資深作者Yoon Kim表示,這項研究是尋找下一代AI架構的關鍵一步,目標是維持Transformer的可擴展性與效率,同時提升如狀態追蹤這類關鍵能力。他期待這種數據驅動的位置編碼技術,未來能應用於生物領域,如蛋白質或DNA分析。

此研究成果於本月發表於神經信息處理系統會議(NeurIPS),由多位來自MIT、斯坦福大學、微軟及IBM的研究者共同完成,部分資金由MIT-IBM Watson AI Lab與Schmidt Sciences的AI2050計劃支持。

評論與啟示

這項由MIT與IBM合作開發的PaTH Attention技術,為大型語言模型在處理長文本的結構與語境演變帶來革命性改進。現時大多數LLM仍受限於靜態、相對位置編碼,難以捕捉複雜的狀態變化與長距離依賴,這限制了其在複雜推理、程式碼理解甚至法律文本分析等領域的表現。PaTH Attention透過動態且內容敏感的路徑編碼,模擬人類理解過程中對語境變化的感知,這不僅提升了模型的推理深度,也為未來多模態理解和跨領域應用奠定基礎。

值得關注的是,該技術同時考慮了運算效率,確保能在現有硬件架構如GPU上快速執行,這對於實際應用至關重要。再者,與「遺忘機制」結合的PaTH-FoX則反映出模仿人類認知策略的重要性,選擇性忽略過時信息有助於提升模型判斷的準確性與穩定性。

對香港及華語地區的AI發展而言,這種技術提升意味著未來本地化語言模型可以更好地應對文本長度龐大、語境變化豐富的應用場景,如法律文件審閱、財務報告分析、醫療記錄推理等,有助於推動智慧城市、金融科技與醫療健康等產業升級。

總結來說,PaTH Attention不僅是對Transformer架構的突破,更象徵著AI向更「人性化」理解邁出的重要一步。未來,若能結合更多跨領域知識與多模態數據,將極大拓展AI在複雜決策與創新應用的可能性。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。