高達30%的AI訓練電力被浪費:如何解決這個問題
根據密西根大學的一項新研究,訓練大型語言模型(例如GPT系列)的新方法能在相同的時間內節省高達30%的能量。這種方法不僅提高了效率,還預計到2026年能夠節省的能源足以供給110萬個美國家庭使用。根據富國銀行的預測,這也有助於減少國際貨幣基金組織預測到2027年數據中心可能佔全球碳排放的1.2%所帶來的影響,以及隨之而來的水資源需求。
一些專家認為,這些成本可能會被環境益處所抵消。他們主張,AI在應對氣候變化方面可以成為“遊戲改變者”,通過優化供應鏈和電網管理、管理我們的能源需求,以及改善氣候變化的研究。然而,這並不意味著可以隨意浪費能源,因為在訓練AI的過程中,有些電力的使用對訓練時間和模型精度沒有任何影響。
密西根大學計算機科學與工程的副教授Mosharaf Chowdhury表示:“為什麼要花費沒有意義的資源?”他是這項研究的對應作者,該研究在第30屆操作系統原則研討會上發表。
他進一步指出:“我們不能不斷建設更大規模的數據中心,因為我們將無法提供足夠的電力來運行它們。如果我們能減少AI消耗的能源,就能減少AI的碳足跡和冷卻需求,並使更多的計算能在我們目前的能源限制內進行。”
這種能源浪費的原因在於AI訓練過程中,GPU(專門用於大型數據和圖形應用的計算處理器)的工作分配不均。雖然這樣的分配方式會導致浪費,但為了處理龐大的數據集,分配工作是必要的。
密西根大學計算機科學與工程的博士生Jae-Won Chung表示:“當前的AI模型如此龐大,以至於無法在單一計算處理器內運行。它們需要分配到數以萬計的處理器來進行訓練,但將模型完美均勻地分配到所有處理器上幾乎是不可能的。”
訓練任務難以均勻分配的原因在於某些任務需要在同一處理器上組合在一起,就如同將一系列書籍整齊地放在同一書架上一樣。根據任務的組合方式,一些處理器可能會被分配到AI訓練的“百科全書”,而其他處理器則可能只需處理一部奇幻三部曲。
由於目前的訓練方法使每個處理器都在最高速度運行,因此負擔較輕的處理器會在其他處理器之前完成計算。這不會加快訓練速度,因為訓練直到所有處理器都完成任務才算結束,但這種方式卻是浪費,因為更快的計算需要更多的能量。此外,硬體故障或網絡延遲等問題也會因單個處理器的計算速度變慢而造成能源浪費。
為了節省能源,研究團隊開發了一種名為Perseus的軟件工具,它能識別出關鍵路徑,即需要花費最長時間完成的一系列子任務。然後,Perseus會減慢不在關鍵路徑上的處理器速度,以便所有處理器能在接近同一時間完成工作,從而消除不必要的電力使用。
Chowdhury表示:“減少AI的電力成本對於公平獲取AI有重要意義。如果一個國家沒有足夠的電力來運行大型模型,他們可能需要使用遙遠的服務,或者只能運行較小、準確性較低的模型。這種差距可能會進一步加劇不同社區之間的不平等。”
研究團隊使用Perseus進行了GPT-3及其他三個大型語言模型和一個計算機視覺模型的訓練測試。
Perseus是一個開源工具,作為Zeus的一部分,用於測量和優化AI的能源消耗。
這項研究不僅是技術上的突破,更是對未來AI發展的一次深刻反思。隨著AI技術的迅速發展,我們必須重視其對環境的影響,並尋找可持續的解決方案。這不僅關乎技術的進步,更涉及到全球能源使用的合理分配和未來社會的公平性。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。