Google新AI「泰坦」：記憶力超班，超越Transformer！

zero comment

谷歌新AI架構「Titans」能夠記住長期數據

谷歌最近推出了一種新的神經長期記憶模塊，稱為「Titans」，旨在改善機器隨時間處理大量信息的能力。

這一架構由研究人員Ali Behrouz、Peilin Zhong和Vahab Mirrokni設計，旨在結合短期和長期記憶，以解決傳統AI所面臨的問題。

“Titans是基於Pytorch和JAX實現的，我們計劃很快將用於訓練和評估我們模型的代碼公開，”研究人員在官方論文中提到。

比變壓器更優越

研究人員在語言建模、長期推理和時間序列預測等任務中測試了Titans。它的表現超越了現有架構，如變壓器和循環神經網絡（RNN），顯示出其更高效地處理長序列的能力。

在BABILong基準測試中，記憶作為上下文（MAC）變體取得了卓越的結果。「Titans比變壓器和現代線性RNN更有效。」Behrouz在X平台上宣布。

在BABILong基準中，Titans（MAC）展現出卓越的性能，能夠有效擴展到超過2M的上下文窗口，超越了GPT-4、Llama3 + RAG和Llama3-70B等大型模型。

這一發展可能對文件分析、時間序列預測和基因組學等應用帶來好處。通過將長期記憶與當前數據結合，Titans或許能提升機器學習系統解決複雜現實問題的能力。

AI策略家Pablo Horneman解釋，短期記憶使用標準注意力處理當前上下文，而神經記憶模塊則有效管理遠程依賴性。

這一架構確保了最近和歷史數據的平衡處理，克服了處理長序列的限制。

運作原理

Horneman在LinkedIn上分享了他對傳統標準注意力機制與Titans之間關鍵差異的見解。

變壓器對於短期任務有效，但在處理較長上下文時需要大量計算資源。較新的模型雖然速度更快，但常常會隨著時間的推移而丟失重要細節。

Titans結合了注意力機制與神經長期記憶模塊，使模型能夠在測試期間記憶和利用信息。

Titans架構引入了一個神經記憶模塊，能夠在實時操作中學習記住什麼和忘記什麼。這種方法使其能夠處理數百萬數據點而不損失準確性。

Titans引入了三種架構變體：MAC、記憶作為閘控（MAG）和記憶作為層（MAL）。

在MAC配置中，Titans對輸入進行分段，即使這些輸入的大小與當前大型語言模型中的上下文窗口相當，並檢索相關段的歷史記憶，根據注意力輸出更新記憶。每種變體都有其優勢，適合不同的任務。

Behrouz解釋，Titans的創新在於模仿人類記憶。雖然我們的短期記憶非常準確，但僅限於短暫的窗口，Titans則依賴其他記憶系統來長期存儲信息。

同樣，Titans利用注意力作為短期記憶來捕捉即時依賴性，並用神經記憶模塊作為長期記憶來捕捉遠程依賴性。這一設計有效地平衡了最近和歷史數據。

進一步受到人類如何優先記住難忘事件的啟發，Titans根據「驚奇」值來決定儲存哪些標記。

違反期望的事件會引發注意，但最初的驚奇和隨著時間推移的相關性衰減驅動長期記憶的形成。

在這項研究中，我們可以看到AI技術的進步不僅在於計算能力的提升，還在於記憶和理解的方式。Titans的出現，顯示出AI在模仿人類思維和記憶方面的潛力，這將為未來的智能應用開啟新的可能性。

隨著這一架構的推廣，未來的AI應用無疑將更具智能化和人性化，這對於解決現實中的複雜問題將提供更為強大的支持和靈活性。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

🔥 CHATGPT PLUS 帳戶出租