NVIDIA NVILA：顛覆視覺AI新標準！

zero comment

NVIDIA的NVILA超越GPT-4o Mini和Llama 3.2，重新定義視覺AI的開放標準

NVIDIA最近推出了一個新的開放視覺語言模型系列，名為NVILA，專注於優化準確性和效率。據說該模型將訓練成本降低了4.5倍，並將微調內存需求降低了3.4倍。此外，它還將預填充和解碼的延遲減少了近2倍。這些數據都是與LLaVa OneVision模型進行比較的，後者是另一個大型視覺模型，與Qwen 2語言模型相結合。

根據基準測試結果，NVILA在視頻基準測試中表現優於GPT 4o Mini，並且與GPT 4o、Sonnet 3.5和Gemini 1.5 Pro的性能相當。值得注意的是，NVILA的表現超過了大多數開放模型，並且在與Llama 3.2模型的比較中也取得了輕微的勝利。

不過，似乎他們尚未在Hugging Face上發布該模型。NVIDIA表示：“我們將很快提供我們的代碼和模型，以促進可重複性。”

NVIDIA指出，訓練視覺語言模型（VLM）是昂貴的，訓練一個7B VLM大約需要400個GPU天。此外，他們還表示，微調VLM是“內存密集型”的，一個7B VLM需要超過64GB的GPU內存。

因此，NVIDIA採用了“先擴展再壓縮”的技術，這是一種平衡VLM準確性和效率的方法。NVILA並沒有減少照片和視頻的大小，而是使用高解析度的圖像和視頻的多幀來確保不會損失任何細節。

然後，該模型通過將視覺信息壓縮為更少的標記來減小輸入的大小，將像素分組並保留重要信息。

“例如，將解析度加倍將使視覺標記的數量加倍，這將使訓練和推理成本增加超過2倍，因為自注意力隨著標記數量的增加而呈平方增長。我們可以通過壓縮空間/時間標記來降低這一成本，”該模型的作者在詳細說明模型的論文中提到。

NVIDIA還展示了一些模型的演示，能夠根據圖像和視頻提供多個查詢的信息。這些輸出還與NVIDIA之前發布的VILA 1.5模型進行了比較。

此外，NVIDIA詳細介紹了使用其他技術，如Dynamic-S2進行擴展、基於DeltaLoss的數據集修剪、使用FP8精度的量化等。這些技術的詳細信息可在Arxiv上查看，了解這些技術如何幫助模型。所有這些技術都應用於一個8B參數模型。

—

這篇報道突顯了NVIDIA在視覺AI領域的最新進展，展示了其新模型NVILA的強大能力及其潛在應用。這不僅反映出NVIDIA在技術上的持續創新，也為開放標準的發展提供了新的視角。隨著AI技術的不斷演進，如何在保持高效能的同時降低成本，將成為業界的一大挑戰。NVIDIA的“先擴展再壓縮”策略，無疑為解決這一問題提供了啟示，值得其他企業參考和學習。隨著這些技術的成熟，未來我們可能會看到更多關於視覺AI在各行各業中的應用，從醫療到娛樂，甚至是教育領域。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

NVIDIA NVILA：顛覆視覺AI新標準！

chatgpt

發佈留言取消回覆

NVIDIA NVILA：顛覆視覺AI新標準！

chatgpt

發佈留言 取消回覆

Related Articles

美中貿易談判緊張 美股期貨持穩觀望

中美貿易談判續航日 二手出口限制望放寬

阿里巴巴專利官司求撤銷控訴因律師極端行為

發佈留言取消回覆

美中貿易談判緊張美股期貨持穩觀望

中美貿易談判續航日二手出口限制望放寬