**Nvidia的黃仁勳承認AI晶片設計缺陷是「100% Nvidia的錯」——TSMC無需負責,修正後的Blackwell晶片現已投產**
Nvidia的Blackwell GPU曾因設計缺陷而導致產量低下,該問題已於數月前修復,經改良的B100/B200處理器即將進入量產階段。Nvidia行政總裁黃仁勳本周承認,這一缺陷完全由Nvidia引起,並表示其製造合作夥伴台積電(TSMC)在修復過程中提供了及時的幫助,據路透社報道。
「我們的Blackwell設計有缺陷,雖然功能正常,但設計缺陷導致產量低下,這是100% Nvidia的錯。」黃仁勳說。
最初有報道指責TSMC是設計缺陷的原因,並暗示這可能引發Nvidia與其代工夥伴之間的緊張關係。黃仁勳否認了這一說法,稱這些都是「假新聞」,問題的根源在於Nvidia自身的錯誤計算。
Nvidia的Blackwell B100和B200 GPUs使用了TSMC的CoWoS-L封裝技術,該技術依賴於配備本地矽互聯(LSI)橋的RDL中介層,以實現約10 TB/s的數據傳輸率。這些橋的放置至關重要。然而,由於GPU芯片、LSI橋、RDL中介層和主板基板間的熱膨脹特性不匹配,系統出現了翹曲和故障,Nvidia據報必須修改GPU矽片的頂層金屬層和凸點以提高產量。雖然公司沒有透露具體的修復細節,但提到需要新的掩模。
在半導體行業中,產量問題和主要功能缺陷(如錯誤)並不罕見。通常公司會通過修改一兩層金屬層來解決,並稱之為新的步進。例如,英特爾的Sapphire Rapids據報有500個錯誤,公司發布了約十二個步進來修復(其中五個是基礎重新設計)。每個新步進需要大約三個月完成(包括問題識別、修復和生產新版本的芯片),所以Nvidia與TSMC能夠如此迅速地修復Blackwell GPU令人印象深刻。
修正後的Blackwell GPUs將於十月底進入量產,並應於明年初開始出貨(仍屬於Nvidia的2025財年)。
不過,Nvidia早前表示,為滿足AWS、Google和Microsoft等主要雲服務供應商對Blackwell GPUs的需求,2024年仍需出貨部分初期低產量的Blackwell處理器。目前尚不清楚2024年將有多少Blackwell GPUs被運往數據中心。
**編輯評論:**
Nvidia此次公開承認並迅速修復設計缺陷,顯示出公司在面對技術挑戰時的透明度和行動力。這不僅維持了與TSMC的合作關係,也保障了市場對其AI晶片的需求。然而,Nvidia即使在修復後仍需出貨部分低產量的處理器,可能意味著市場需求超過了其預期生產能力。這為Nvidia未來的供應鏈管理和技術改進提出了新的挑戰。此外,這一事件也讓我們看到半導體行業中設計與製造間緊密合作的重要性,如何在技術創新與穩定生產之間取得平衡將是業界持續關注的焦點。
以上文章由特價GPT API KEY所翻譯