Nvidia的Blackwell AI芯片推出遭遇過熱問題
Nvidia最近推出的Blackwell AI芯片在測試過程中發現過熱問題,與之相關的伺服器機架似乎也受到了影響。根據《資訊報》報導,這些設計用來容納多達72顆芯片的機架在熱管理上出現了困難,這讓數據中心提供商擔心Nvidia的新芯片無法按計劃在客戶的數據中心部署。報導指出,Nvidia已多次要求供應商對設計進行修改,以解決這個問題,這是該公司在尋求解決方案過程中獲得的內部消息。
Blackwell芯片的技術特點
Nvidia的Blackwell芯片在三月份推出,採用了雙硅架構,顯著提高了處理速度,對於如聊天機器人回應等任務,其速度比早期型號快了30倍。這款芯片結合了六種新技術,能夠進行AI訓練和實時大語言模型(LLM)推理,支持高達10萬億參數的模型。
Blackwell芯片原定於第二季度發布,但由於早期的設計缺陷,已經面臨延遲。儘管目前面臨過熱挑戰,Nvidia並未正式通知客戶有進一步的延遲。這些延遲和技術障礙引起了Nvidia主要客戶的擔憂,包括微軟、Meta Platforms和Alphabet旗下的谷歌等公司,這些公司皆在等待新伺服器機架的交付,以推進其AI能力。
Nvidia的回應及未來展望
Nvidia的一位發言人在接受路透社訪問時表示:“Nvidia正在與領先的雲服務提供商密切合作,這是我們工程團隊和流程的一部分。工程迭代是正常且預期的。”上週,Nvidia宣布日本軟銀的電信部門將成為首個獲得Blackwell設計基礎的芯片的客戶。Nvidia首席執行官黃仁勳在日本的AI高峰會上透露,軟銀正在建設日本最強大的AI超級計算機,並計劃在即將到來的系統中採用Nvidia的Grace Blackwell平台。
這項舉措是兩家公司之間更大合作夥伴關係的一部分,旨在推進AI技術並重塑日本的電信行業。
此外,Nvidia的股價在十月份創下歷史新高,接近超越蘋果成為全球最有價值的公司。該股上漲了2.4%,收於138.07美元,這反映出投資者對Nvidia AI處理器需求激增的信心。
這一情況不僅顯示出Nvidia在AI領域的潛力,還凸顯出高科技行業面臨的挑戰。隨著AI應用的迅速發展,企業需要在技術創新和風險管理之間找到平衡。Nvidia的情況提醒我們,技術進步的同時,必須重視基礎設施的可靠性和可持續性,否則可能會影響整個生態系統的發展。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。