**Nvidia的黃仁勳承認AI芯片設計缺陷是「100% Nvidia的錯」——TSMC無需擔責,現已修復的Blackwell芯片正在生產**
Nvidia在其Blackwell GPU中發現的設計缺陷已在數月前修復,改良版本的B100/B200處理器即將進入大規模生產。Nvidia的CEO黃仁勳本週承認,該缺陷完全是由於Nvidia的失誤造成的,並表示公司的生產夥伴TSMC協助及時修復了問題,根據路透社報導。
「我們在Blackwell中有一個設計缺陷,雖然功能正常,但這個設計缺陷導致了產量低,」黃仁勳表示。「這是100% Nvidia的錯。」
當最初的設計缺陷報導出現時,一些媒體報導稱TSMC應該負責,並暗示這可能造成了Nvidia與其代工夥伴之間的緊張關係。然而,黃仁勳指出,這並非事實,問題是由於Nvidia自身的計算失誤造成的。黃仁勳還駁斥了有關兩家公司之間緊張關係的報導,稱之為「假新聞」。
Nvidia的Blackwell B100和B200 GPU使用TSMC的CoWoS-L封裝技術,該技術依賴於配備局部矽互連(LSI)橋的RDL中介層(以實現約10 TB/s的數據傳輸速率)。這些橋的放置至關重要。然而,據稱GPU芯片、LSI橋、RDL中介層和主板基板之間的熱膨脹屬性不匹配導致系統變形和失效,Nvidia據報必須修改GPU矽的頂層金屬和凸點以提高生產產量。雖然公司沒有透露具體的修復細節,但提到需要新的光罩。
在半導體領域,產量問題和重大功能問題(errata)並不罕見。通常,公司通過修改一層或兩層金屬來修復這些問題,並稱之為新的步進。例如:Intel的Sapphire Rapids據報有500個漏洞,公司發布了大約12個步進來修復這些問題(其中五個是基本重新旋轉)。每個新步進大約需要三個月完成(包括識別問題、修復問題和生產新版本的芯片),因此Nvidia和TSMC修復Blackwell GPU的速度相當令人印象深刻。
現已修復的Blackwell GPU將於十月底進入大規模生產,並應在明年初開始出貨(仍然是Nvidia的2025財年)。
儘管如此,Nvidia今年早些時候披露,為了滿足AWS、Google和Microsoft等主要雲服務提供商對Blackwell GPU的需求,仍需在2024年出貨一些初期產量較低的Blackwell處理器。目前尚不清楚2024年會有多少Blackwell GPU被運送到數據中心。
**編輯評論:**
這次Nvidia的設計失誤事件再度提醒我們,科技巨頭在技術創新過程中,無論多麼成熟的公司也可能會出現錯誤。然而,Nvidia快速修復問題並公開承擔責任的態度,值得肯定。這不僅顯示出公司對客戶的承諾,也展示了其內部問題解決的效率。
此外,這事件也讓我們重新審視半導體行業中複雜的供應鏈和合作關係。Nvidia與TSMC的合作顯示出雙方在面對危機時的協同能力,這對行業未來的發展有重要啟示。這種合作模式或許可以成為其他科技公司在面對類似問題時的參考。
最後,值得關注的是,Nvidia在市場需求與產品質量之間的平衡。即使在修復期間,仍需出貨初期產量較低的產品,這顯示出市場對技術的渴望與供應鏈壓力的現實。這或許能促使行業進一步探索如何在創新與穩定性之間取得最佳平衡。
以上文章由特價GPT API KEY所翻譯