MIT研究:大型語言模型似人腦,處理多元數據有一手!

Ai

像人類大腦一樣,大型語言模型以一般方式推理多樣數據

一項新研究顯示,大型語言模型(LLMs)根據其潛在意義來表示不同類型的數據,並以其主導語言進行推理。

麻省理工學院(MIT)的研究人員深入探討了大型語言模型的內部運作,以更好地理解它們如何處理各種多樣的數據,並發現它們與人類大腦之間存在一些相似之處。

神經科學家認為,人類大腦的前顳葉有一個“語義樞紐”,整合來自各種模態(如視覺數據和觸覺輸入)的語義信息。這個語義樞紐與特定模態的“輻射”相連,將信息路由到樞紐。MIT的研究人員發現,大型語言模型使用類似的機制,通過一般化的方式抽象處理來自不同模態的數據。例如,一個以英語為主導的模型會依賴英語作為處理日語輸入或推理算術、計算機代碼等的中心媒介。此外,研究人員展示了他們可以通過使用模型主導語言的文本來干預模型的語義樞紐,從而改變其輸出,即使模型正在處理其他語言的數據。

這些發現可能幫助科學家訓練未來能夠更好地處理多樣數據的大型語言模型。

“LLMs是一個大型黑箱。它們取得了非常令人印象深刻的表現,但我們對它們的內部工作機制知之甚少。我希望這能成為更好理解它們運作的一個早期步驟,以便我們能夠改進它們並在需要時更好地控制它們,”電機工程和計算機科學(EECS)的研究生、該研究論文的首席作者吳朝峰表示。

他的合著者包括南加州大學(USC)的研究生余心妍、USC的副教授達尼·尤加塔馬、蘋果的研究科學家盧嘉森,以及MIT EECS的助理教授金允和計算機科學與人工智能實驗室(CSAIL)的成員。該研究將在國際學習表徵會議上發表。

整合多樣數據

研究人員在新研究中基於之前的工作,這些工作暗示以英語為中心的LLMs使用英語來對各種語言進行推理過程。

吳和他的合作者擴展了這一想法,啟動了一項深入研究,以了解LLMs用來處理多樣數據的機制。

一個LLM由許多互連的層組成,將輸入文本分割成單詞或子單詞,稱為標記(tokens)。該模型為每個標記分配一個表示,這使其能夠探索標記之間的關係並生成序列中的下一個單詞。在圖像或音頻的情況下,這些標記對應於圖像的特定區域或音頻片段的部分。

研究人員發現,模型的初始層以其特定語言或模態處理數據,類似於人類大腦中模態特定的輻射。然後,LLM將標記轉換為模態無關的表示,因為它在內部層中對其進行推理,類似於大腦的語義樞紐如何整合多樣的信息。

該模型對具有相似意義的輸入賦予相似的表示,儘管它們的數據類型不同,包括圖像、音頻、計算機代碼和算術問題。即使一個圖像及其文本標題是不同的數據類型,因為它們共享相同的意義,LLM仍會為它們分配相似的表示。

例如,一個以英語為主導的LLM在“思考”中文輸入時,會先用英語進行推理,然後生成中文輸出。該模型對於非文本輸入(如計算機代碼、數學問題或多模態數據)也有類似的推理傾向。

為了測試這一假設,研究人員將一對意思相同但用兩種不同語言寫成的句子傳遞給模型,並測量模型對每個句子的表示有多相似。

接著,他們進行了第二組實驗,將不同語言(如中文)的文本傳遞給一個以英語為主導的模型,並測量其內部表示與英語和中文的相似程度。研究人員對其他數據類型也進行了類似的實驗。

他們一致發現,對於具有相似意義的句子,模型的表示是相似的。此外,在多種數據類型中,模型在其內部層處理的標記更像是以英語為中心的標記,而不是輸入的數據類型。

“這些輸入數據類型似乎與語言極其不同,因此我們對於在模型處理數學或編碼表達式時,能夠探測出英語標記感到非常驚訝,”吳說。

利用語義樞紐

研究人員認為,LLMs可能在訓練過程中學會了這種語義樞紐策略,因為這是一種經濟的方式來處理多樣數據。

“世界上有數千種語言,但很多知識是共享的,比如常識或事實知識。模型不需要在不同語言之間重複這些知識,”吳說。

研究人員還嘗試在模型處理其他語言時,使用英語文本介入其內部層。他們發現可以可預測地改變模型的輸出,即使這些輸出是以其他語言呈現的。

科學家可以利用這一現象,鼓勵模型在多樣數據類型之間共享盡可能多的信息,從而提高效率。

但另一方面,某些概念或知識可能無法在不同語言或數據類型之間轉換,例如特定文化的知識。在這些情況下,科學家可能希望LLMs具有一些語言特定的處理機制。

“如何在可能的情況下最大限度地共享,同時又允許語言擁有一些語言特定的處理機制?這可以在未來的模型架構研究中進行探討,”吳說。

此外,研究人員可以利用這些見解來改進多語言模型。通常,一個以英語為主導的模型在學習另一種語言時,會失去某些英語的準確性。更好地理解LLM的語義樞紐可以幫助研究人員防止這種語言干擾。

“理解語言模型如何跨語言和模態處理輸入是一個關鍵問題。這篇論文與神經科學建立了有趣的聯繫,顯示了所提出的‘語義樞紐假設’在現代語言模型中成立,在模型的中間層中創建了不同數據類型的語義相似表示,”特拉維夫大學計算機科學學院的助理教授莫爾·蓋瓦·皮佩克表示,他沒有參與這項工作。“這一假設和實驗巧妙地聯繫和擴展了之前工作的發現,可能對未來創建更好的多模態模型及研究它們與人類大腦功能和認知之間的聯繫產生影響。”

這項研究部分由MIT-IBM沃森人工智能實驗室資助。

這項研究不僅揭示了大型語言模型的運作機制,還為人工智能的未來發展提供了新的思路。透過理解語義樞紐的作用,我們或許能夠設計出更高效的模型,這不僅能改善多語言處理的準確性,還能在不同數據類型之間建立更強的聯繫。這樣的進步不僅對科技界有深遠的影響,還可能推動我們對人類認知的理解。隨著這些技術的發展,我們需要持續關注其潛在的文化和倫理影響,確保科技的進步能夠在造福社會的同時,考慮到各種語言和文化的獨特性。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon