AI訓練需耗巨能,如何減少?

Ai

控制人工智能日益增長的能源需求

人工智能(AI)模型的訓練所需的巨大能量已成為一個日益關注的問題。

例如,根據谷歌和加州大學伯克利分校研究人員的估算,為了訓練驅動Chat GPT-3的大型語言模型(LLM),使用了近1,300兆瓦小時的能量,這相當於130個美國家庭一年的用電量。

此外,OpenAI的分析顯示,自2012年以來,訓練AI模型所需的電力需求正以指數級增長,約每3.4個月翻倍一次,原因是模型變得越來越大和複雜。然而,我們的能源生產能力並沒有以同樣的速度增長,這可能會進一步加劇全球變暖:發電是氣候變化的最大貢獻者,因為煤、油和天然氣仍然是發電的主要來源,相比之下,清潔能源的使用仍然有限。

“以這種速度發展,我們在擴展機器學習網絡的能力上正面臨著一堵磚牆,”荷蘭AMOLF研究所的理論物理學家梅納赫姆·斯特恩(Menachem Stern)表示。

機器學習模型如LLMs通常需要在龐大的數據集上訓練數周甚至數月,這一過程需要使用消耗大量電力的圖形處理單元(GPUs),這是目前最先進的訓練方法。GPU由計算機芯片公司Nvidia發明,最初是為了渲染圖形,並且能夠通過並行處理同時執行多個計算。當機器學習模型在訓練過程中從數據中學習模式時,會涉及到複雜的數學運算,因為數百萬個參數需要進行調整。因此,與使用傳統的中央處理單元(CPUs)相比,使用GPUs可以顯著加快訓練速度。

特別是,Nvidia的GPUs已成為AI訓練的首選,因為它們針對這一任務進行了優化,並且其軟件使得使用變得簡單。根據市場情報公司CB Insights的最新報告,該公司在機器學習市場的占有率約為95%。例如,ChatGPT的訓練使用了10,000個Nvidia GPUs集成在一台超級計算機中。

然而,現在正尋求降低能耗的替代方案來減少AI訓練的能源足跡。其中一種替代方案是創造一種新的機器,稱為神經形態計算機,這種計算機模擬了人類大腦的某些運作方式。

與GPUs類似,我們的大腦能夠同時處理多個信息源。然而,它的能效要高得多,並且能夠在僅僅20瓦的功率下執行每秒十億億次的數學運算(即exaflop)。相比之下,美國能源部使用的世界上最強大的超級計算機之一,擁有超過37,000個GPUs,為了實現相同的運算,則需要約20兆瓦的功率,這是其千萬倍的能耗,根據《科學》期刊的報導。

人類大腦使用幾種策略來節省電力。傳統計算機使用二進制的0和1來數字表示信息,這在每次值翻轉時都會消耗能量。然而,我們的大腦在很多情況下使用類比信號,例如當神經元通過使用一系列電壓來傳遞信息時,這樣的方式消耗的能量更少。此外,我們的大腦中的記憶和計算在同一位置進行,這比起在現今計算機中分開進行能夠節省更多的能量。

“由於信息和計算在同一位置,因此不需要在它們之間來回傳遞信息,”斯特恩說。“在許多標準計算機中,這正是主導能量消耗的原因。”

在最近的工作中,斯特恩和他在賓夕法尼亞大學的同事們開發了一種神經形態計算機的原型,其形式為一個放在麵包板上的電路,通過電線連接在一起。他們目前的設計很大,尺寸約為一米乘半米,包含僅32個可變電阻,這些是學習元素。與類似的設計不同的是,該系統內部進行學習,而其他設計通常將訓練卸載到硅芯片計算機上,並且僅在使用過程中依賴神經形態硬件。

“我們的神經形態計算機可以在學習過程中提高能量消耗的效率,而不僅僅是在使用過程中,”斯特恩說。

目前,他們的神經形態設計中每個學習元素所消耗的電力與世界上最節能的超級計算機之一Henri的每個參數所消耗的電力相當。然而,隨著增加更多電阻和計算能力,該系統應該能在能效方面顯示出明顯的優勢,斯特恩的賓夕法尼亞大學同事薩繆爾·迪拉沃(Samuel Dillavou)表示。GPUs在每次運算時消耗能量,因此能夠每秒執行更多計算也會推高它們的能耗。相比之下,像他們這樣的類比方法的能耗僅取決於系統開啟的時間:如果它的速度快三倍,那麼它的能效也會提高三倍。

不過,去掉數字化可能會使神經形態計算面臨劣勢。類比信號比數字信號噪聲要大得多,這意味著它們可能不適合需要高精度的應用。斯特恩認為這對機器學習來說並不是一個大問題。許多算法被訓練來執行的任務,如圖像識別,通常有一個可接受的準確性水平,通常在70%到90%之間。

然而,編程神經形態計算機可能會是一個挑戰。在傳統計算機中,硬件和軟件是分開的組件,但在神經形態設計中,兩者是交織在一起的。神經形態設計可以採用不同的物理形狀,例如如果它們被整合到智能材料中,可以是可編程的粘土或彈性物質。

“每一種神經形態計算機的候選者都需要從頭開始考慮如何在其中實現學習,這是一個非常困難的問題,”斯特恩說。“那些將要編寫這些機器程序的人需要比為傳統機器編寫計算機程序的人了解更多。”

另一種可能與GPUs競爭的新興技術是光學計算機,這種計算機使用光波而非電子來傳輸信息。使用光子這種光粒子也能夠同時處理大量數據,並且具有幾個優勢。光學信號的傳輸速度快於電信號,接近光速,並能在廣泛的頻率範圍內傳輸數據,從而實現更快的計算。而且,電子在通過材料時遇到阻力,這會導致熱量和能量損失,而光子則能夠自由移動。

“光子電路方法本質上是非常低功耗的,”位於加州山景城的計算機硬件公司Lightmatter的產品副總裁史蒂夫·克林格(Steve Klinger)表示。

理論上,這意味著開發僅使用光的計算機在使用過程中會比傳統計算機更節能。然而,由於這需要徹底改造現有技術,因此將光學組件集成到硅芯片中的方法目前是商業上可行的。

克林格和他的Lightmatter同事們正在採用這種混合方法,開發兩種解決方案,專注於利用光進行計算密集型處理。例如,在AI訓練過程中,不同處理元素之間進行大量通訊,這消耗了大量帶寬,即在特定時間內可以傳輸的數據量。這限制了可用於計算的帶寬,導致許多計算元素經常處於閒置狀態。

Lightmatter的一個產品名為Passage,利用光的特性來連接不同的處理器,從而更高效地傳輸信息。預計帶寬將提高十倍,並計劃在五年內提高100倍。該公司還在開發另一個基於光的組件,名為Envise,旨在接管GPUs在模型訓練時執行的數學運算,即矩陣乘法。使用光子電路應該顯著減少AI訓練的能耗。

“通過使可用的計算更有效率,您可以節省大量電力,從而需要更少的計算元素來達到特定的性能水平,”克林格說。

Lightmatter目前正在尋求與硅芯片供應商合作,並預見其產品將在數據中心中使用,以提升AI訓練的性能。他們面臨的一個挑戰是滿足數據中心芯片的密度和尺寸要求,因為光纖的尺寸限制了可以容納的數量。克林格表示,行業內正在進行改進,例如開發新的方法來連接光纖,以便能夠更緊密地安裝。

新的計算方法充滿希望,但它們的開發和採用需要時間。加州大學河濱分校電氣與計算機工程副教授肖雷·任(Shaolei Ren)專注於使AI更具可持續性,他認為目前的方法可以在此期間變得更具能效。由於能源使用與成本相關,因此模型開發者有動機降低能耗,並且在這方面正在進行大量研究。

例如,與其擴大LLMs的規模,現在出現了一種趨勢,即使用較小的微調模型,因為在某些情況下它們的表現優於較大的模型。例如,微軟在今年早些時候宣布了其Phi-3系列的小型語言模型,在某些數學、語言和編程基準測試中超越了一些更大的模型。這應該能在訓練過程中節省能量,因為通常需要的計算和數據較少。如果將模型的大小減少十倍,那麼能耗可減少百倍,任說。

“選擇較小的模型在特定領域非常節能且有效,”他補充道。“我們現在看到這種專門模型的數量比以前更多。”

這篇文章深入探討了當前AI訓練過程中的能源消耗問題,並提出了新技術的潛力。然而,這樣的技術轉變不僅需要時間,也需要整個行業的協同努力。尤其是在全球對於可持續發展的重視程度日益提高的背景下,如何在不犧牲性能的情況下有效降低能源需求,將成為未來AI發展的重要挑戰。這不僅是技術的問題,更是社會責任的體現。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Chat Icon