免費!一CLICK將圖片轉成吉卜力風!!

NVIDIA GPU逆向工程:提升模擬器精準度,AI研究新突破!

Ai

這篇AI論文揭示了一個針對現代NVIDIA GPU的反向工程模擬器模型:提升微架構準確性和性能預測

GPU被廣泛認為在處理高性能計算工作負載方面非常高效,特別是人工智能和科學模擬等領域。這些處理器設計用來同時執行數千個線程,並具備對寄存器文件訪問優化、內存合併及基於warp的調度等功能的硬件支持。其結構使其能夠支持廣泛的數據並行性,並在各種科學和工程領域的複雜計算任務中實現高吞吐量。

在涉及GPU微架構的學術研究中,一個主要挑戰是依賴過時的架構模型。許多研究仍然使用基於Tesla的管線作為基準,而該管線已經發布超過十五年。自那時以來,GPU架構已經顯著演變,包括引入子核心組件、新的控制位以協調編譯器與硬件的合作,以及改進的緩存機制。在過時的架構上繼續模擬現代工作負載會誤導性能評估,並阻礙架構感知軟件設計的創新。

一些模擬器試圖跟上這些架構變化。像GPGPU-Sim和Accel-sim這樣的工具在學術界被廣泛使用。然而,它們的更新版本在建模現代架構(如Ampere或Turing)關鍵方面的準確性上仍然不足。這些工具經常無法準確表示指令提取機制、寄存器文件緩存行為以及編譯器控制位與硬件組件之間的協調。一個無法表示這些特徵的模擬器可能會導致估算週期數和執行瓶頸的重大錯誤。

來自加泰羅尼亞理工大學的一組研究團隊推出的研究旨在填補這一空白,通過反向工程現代NVIDIA GPU的微架構。他們的工作詳細剖析了架構特徵,包括發行和提取階段的設計、寄存器文件及其緩存的行為,以及如何根據就緒性和依賴性安排warp的精細理解。他們還研究了硬件控制位的影響,揭示了這些編譯器提示如何影響硬件行為和指令調度。

為了建立他們的模擬模型,研究人員創建了由精心選擇的SASS指令組成的微基準,這些指令在實際的Ampere GPU上執行,同時記錄時鐘計數器以確定延遲。實驗使用流緩衝區測試特定行為,如讀後寫危害、寄存器銀行衝突和指令預取行為。他們還評估了依賴管理機制的運作,該機制使用記分板跟踪在飛行中的消費者,以防止寫後讀危害。這種細緻的測量使他們能夠提出一個反映內部執行細節的模型,遠比現有模擬器更為精確。

在準確性方面,研究人員開發的模型顯著超越了現有工具。與使用NVIDIA RTX A6000的真實硬件相比,該模型達到了13.98%的平均絕對百分比誤差(MAPE),比Accel-sim好18.24%。所提模型的最壞情況誤差從未超過62%,而Accel-sim在某些應用中達到543%的誤差。此外,他們的模擬顯示第90百分位誤差為31.47%,而Accel-sim則為82.64%。這些結果突顯了所提出的模擬框架在預測GPU性能特徵方面的精確性增強。研究人員驗證了該模型在其他NVIDIA架構(如Turing)上的有效性,證明了其可攜性和適應性。

這篇論文強調了學術工具與現代GPU硬件之間明顯的不匹配,並提出了一個實際的解決方案來彌補這一差距。所提出的模擬模型不僅提高了性能預測的準確性,還有助於理解現代GPU的詳細設計。這一貢獻可以支持未來無論是在GPU架構還是軟件優化方面的創新。

這項研究的意義不僅在於模型的技術突破,更在於它揭示了學術界與業界之間的脫節,這種脫節可能會妨礙技術進步。不僅僅是為了提升模擬準確性,更是要促進能夠真正反映當前技術狀況的工具和方法的發展,以便在未來能夠更好地服務於不斷演變的計算需求。這對於科技的長期發展至關重要,尤其是在快速變化的AI和計算領域。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon