谷歌新AI架構「Titans」能夠記住長期數據
谷歌最近推出了一種新的神經長期記憶模塊,稱為「Titans」,旨在改善機器隨時間處理大量信息的能力。
這一架構由研究人員Ali Behrouz、Peilin Zhong和Vahab Mirrokni設計,旨在結合短期和長期記憶,以解決傳統AI所面臨的問題。
“Titans是基於Pytorch和JAX實現的,我們計劃很快將用於訓練和評估我們模型的代碼公開,”研究人員在官方論文中提到。
比變壓器更優越
研究人員在語言建模、長期推理和時間序列預測等任務中測試了Titans。它的表現超越了現有架構,如變壓器和循環神經網絡(RNN),顯示出其更高效地處理長序列的能力。
在BABILong基準測試中,記憶作為上下文(MAC)變體取得了卓越的結果。「Titans比變壓器和現代線性RNN更有效。」Behrouz在X平台上宣布。
在BABILong基準中,Titans(MAC)展現出卓越的性能,能夠有效擴展到超過2M的上下文窗口,超越了GPT-4、Llama3 + RAG和Llama3-70B等大型模型。
這一發展可能對文件分析、時間序列預測和基因組學等應用帶來好處。通過將長期記憶與當前數據結合,Titans或許能提升機器學習系統解決複雜現實問題的能力。
AI策略家Pablo Horneman解釋,短期記憶使用標準注意力處理當前上下文,而神經記憶模塊則有效管理遠程依賴性。
這一架構確保了最近和歷史數據的平衡處理,克服了處理長序列的限制。
運作原理
Horneman在LinkedIn上分享了他對傳統標準注意力機制與Titans之間關鍵差異的見解。
變壓器對於短期任務有效,但在處理較長上下文時需要大量計算資源。較新的模型雖然速度更快,但常常會隨著時間的推移而丟失重要細節。
Titans結合了注意力機制與神經長期記憶模塊,使模型能夠在測試期間記憶和利用信息。
Titans架構引入了一個神經記憶模塊,能夠在實時操作中學習記住什麼和忘記什麼。這種方法使其能夠處理數百萬數據點而不損失準確性。
Titans引入了三種架構變體:MAC、記憶作為閘控(MAG)和記憶作為層(MAL)。
在MAC配置中,Titans對輸入進行分段,即使這些輸入的大小與當前大型語言模型中的上下文窗口相當,並檢索相關段的歷史記憶,根據注意力輸出更新記憶。每種變體都有其優勢,適合不同的任務。
Behrouz解釋,Titans的創新在於模仿人類記憶。雖然我們的短期記憶非常準確,但僅限於短暫的窗口,Titans則依賴其他記憶系統來長期存儲信息。
同樣,Titans利用注意力作為短期記憶來捕捉即時依賴性,並用神經記憶模塊作為長期記憶來捕捉遠程依賴性。這一設計有效地平衡了最近和歷史數據。
進一步受到人類如何優先記住難忘事件的啟發,Titans根據「驚奇」值來決定儲存哪些標記。
違反期望的事件會引發注意,但最初的驚奇和隨著時間推移的相關性衰減驅動長期記憶的形成。
在這項研究中,我們可以看到AI技術的進步不僅在於計算能力的提升,還在於記憶和理解的方式。Titans的出現,顯示出AI在模仿人類思維和記憶方面的潛力,這將為未來的智能應用開啟新的可能性。
隨著這一架構的推廣,未來的AI應用無疑將更具智能化和人性化,這對於解決現實中的複雜問題將提供更為強大的支持和靈活性。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。