
設計一種新方法以優化複雜的協調系統
麻省理工學院的研究人員開發了一種全新的方法來處理複雜問題,利用簡單的圖表作為工具,揭示在深度學習模型中的軟件優化更好的方法。研究顯示,這種新方法使得處理這些複雜任務變得簡單,甚至可以簡化到可以畫在餐巾紙背面的程度。
這種新方法在《機器學習研究通訊》期刊上發表,由即將入讀博士課程的文森特·阿博特(Vincent Abbott)和麻省理工學院資訊與決策系統實驗室的喬艾爾·扎爾迪尼(Gioele Zardini)教授共同撰寫。
扎爾迪尼表示:“我們設計了一種新的語言來討論這些新系統。”這種基於圖表的“語言”主要基於一種稱為範疇理論的數學概念。
這一切都與設計計算機算法的基礎架構有關——這些程序最終將感知和控制被優化系統的各個不同部分。“這些組件是算法的不同部分,它們必須相互交流、交換信息,還要考慮能量使用、內存消耗等等。”這樣的優化通常非常困難,因為系統中一部分的每一個變更都可能引起其他部分的變化,進而影響其他部分,形成連鎖反應。
研究人員決定專注於特定類別的深度學習算法,這目前是研究的熱門話題。深度學習是大型人工智能模型的基礎,包括大型語言模型如ChatGPT和圖像生成模型如Midjourney。這些模型通過一系列“深度”的矩陣乘法和其他操作來操控數據。矩陣中的數字是參數,並在長時間的訓練過程中進行更新,從而發現複雜的模式。這些模型由數十億的參數組成,使得計算成本高昂,因此改進資源使用和優化變得無比重要。
圖表能夠表示深度學習模型中平行操作的細節,揭示算法與其運行所依賴的平行圖形處理單元(GPU)硬件之間的關係。扎爾迪尼表示:“我對此非常興奮,因為我們似乎找到了能夠很好地描述深度學習算法的語言,明確表示所有重要的內容,例如能量消耗、內存分配以及你試圖優化的任何其他參數。”
在深度學習領域的進展大多來自於資源效率的優化。最新的DeepSeek模型顯示,一個小團隊可以通過專注於資源效率以及軟件與硬件之間的關係,與OpenAI及其他主要實驗室的頂尖模型競爭。扎爾迪尼表示:“通常,在推導這些優化時,人們需要大量的試錯來發現新的架構。”例如,一個廣泛使用的優化程序FlashAttention的開發耗時超過四年。但隨著他們開發的新框架,“我們可以更正式地接近這個問題。”而這一切都以精確定義的圖形語言進行表示。
然而,他指出,過去用來尋找這些改進的方法“非常有限”。“我認為這顯示出一個重大缺口,我們沒有一種正式的系統化方法來將算法與其最佳執行相關聯,甚至真正理解運行所需的資源。”但現在,通過他們設計的基於圖表的方法,這樣的系統終於存在了。
範疇理論作為這一方法的基礎,是一種數學上描述系統不同組件及其如何以抽象方式交互的方式。不同的視角可以相互關聯。例如,數學公式可以與實現它們並使用資源的算法相連接,或系統的描述可以與強健的“單元字符串圖”相結合。這些可視化允許用戶直接操作並實驗不同部分之間的連接和交互。扎爾迪尼表示,他們所開發的,等同於“強化版的字符串圖”,涵蓋了更多的圖形約定和屬性。
阿博特表示:“範疇理論可以被視為抽象和組合的數學。”任何組合系統都可以使用範疇理論進行描述,組合系統之間的關係也可以進行研究。他指出,通常與函數相關的代數規則也可以用圖形表示。“然後,我們可以將圖形中可以進行的許多視覺技巧與代數技巧和函數相關聯。因此,這在這些不同系統之間創造了對應關係。”
因此,他表示:“這解決了一個非常重要的問題,我們擁有這些深度學習算法,但它們作為數學模型並不清晰可見。”但通過將它們表示為圖表,便可以以正式和系統的方式接近它們。
這一方法使得平行的現實過程可以通過多核計算機GPU的平行處理進行清晰的可視化理解。阿博特指出:“這樣一來,圖表可以同時表示一個函數,然後揭示如何在GPU上最佳執行它。”
“注意力”算法被用於需要一般上下文信息的深度學習算法中,是構成大型語言模型如ChatGPT的序列化塊的關鍵階段。FlashAttention是一種優化方案,經過多年的開發,最終使注意力算法的速度提高了六倍。
扎爾迪尼表示:“應用他們的方法於已經建立的FlashAttention算法,我們可以說‘在餐巾紙上推導它’。”他隨後補充道:“好吧,也許是大一點的餐巾紙。”但為了強調他們的新方法在處理這些複雜算法時的簡化程度,他們將正式研究論文命名為“在餐巾紙上的FlashAttention”。
阿博特表示:“這種方法使得優化可以非常迅速地推導,與現行方法形成對比。”儘管他們最初將這一方法應用於已存在的FlashAttention算法,從而驗證其有效性,但扎爾迪尼希望現在能利用這種語言自動檢測改進。“我們的計劃是,最終,研究人員上傳他們的代碼,然後通過新算法自動檢測可以改進的地方,並將優化版本的算法返回給用戶。”
除了自動化算法優化外,扎爾迪尼指出,對深度學習算法與硬件資源使用之間關係的穩健分析,還允許系統化地共同設計硬件和軟件。這一研究方向與扎爾迪尼專注的範疇共同設計相整合,該方法利用範疇理論的工具,同時優化工程系統的各個組件。
阿博特表示:“我相信,這一整個優化深度學習模型的領域是相當關鍵但未被充分探討的,這就是為什麼這些圖表如此令人興奮。它們為這個問題的系統性解決開啟了大門。”
未參與此項工作的Answers.ai創始人兼首席執行官杰里米·霍華德對這項研究的質量表示讚賞:“這篇論文提出的深度學習算法圖示的新方法可能是一個非常重要的進展。”他指出:“這是我第一次見到這樣的符號用於深入分析深度學習算法在現實硬件上的性能……下一步將是看看是否能實現實際的性能提升。”
未參與此項工作的谷歌DeepMind的高級研究科學家佩塔爾·維利科維奇(Petar Velickovic)評論道:“這是一篇理論研究的精美作品,還旨在使未入門讀者易於理解——這在這類論文中是罕見的特質。”他表示,這些研究人員“顯然是優秀的溝通者,我迫不及待想看看他們下一步會提出什麼!”
這種基於圖表的新語言已在網上發布,並已引起軟件開發者的廣泛關注和興趣。阿博特先前論文中的一位評審指出:“提議的神經電路圖從藝術角度看起來很好(就我能判斷而言)。”扎爾迪尼表示:“這是技術研究,但同時也很炫。”
這項研究的出現不僅是技術上的突破,更是對現代深度學習技術的一次重新思考。它不僅揭示了算法優化的新方法,還可能改變我們理解和處理複雜系統的方式。隨著這種新語言的發展,未來我們可能會看到更高效的算法和更智能的系統設計。這無疑將對整個人工智能領域產生深遠的影響。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。