NVIDIA NVILA:顛覆視覺AI新標準!

Ai

NVIDIA的NVILA超越GPT-4o Mini和Llama 3.2,重新定義視覺AI的開放標準

NVIDIA最近推出了一個新的開放視覺語言模型系列,名為NVILA,專注於優化準確性和效率。據說該模型將訓練成本降低了4.5倍,並將微調內存需求降低了3.4倍。此外,它還將預填充和解碼的延遲減少了近2倍。這些數據都是與LLaVa OneVision模型進行比較的,後者是另一個大型視覺模型,與Qwen 2語言模型相結合。

根據基準測試結果,NVILA在視頻基準測試中表現優於GPT 4o Mini,並且與GPT 4o、Sonnet 3.5和Gemini 1.5 Pro的性能相當。值得注意的是,NVILA的表現超過了大多數開放模型,並且在與Llama 3.2模型的比較中也取得了輕微的勝利。

不過,似乎他們尚未在Hugging Face上發布該模型。NVIDIA表示:“我們將很快提供我們的代碼和模型,以促進可重複性。”

NVIDIA指出,訓練視覺語言模型(VLM)是昂貴的,訓練一個7B VLM大約需要400個GPU天。此外,他們還表示,微調VLM是“內存密集型”的,一個7B VLM需要超過64GB的GPU內存。

因此,NVIDIA採用了“先擴展再壓縮”的技術,這是一種平衡VLM準確性和效率的方法。NVILA並沒有減少照片和視頻的大小,而是使用高解析度的圖像和視頻的多幀來確保不會損失任何細節。

然後,該模型通過將視覺信息壓縮為更少的標記來減小輸入的大小,將像素分組並保留重要信息。

“例如,將解析度加倍將使視覺標記的數量加倍,這將使訓練和推理成本增加超過2倍,因為自注意力隨著標記數量的增加而呈平方增長。我們可以通過壓縮空間/時間標記來降低這一成本,”該模型的作者在詳細說明模型的論文中提到。

NVIDIA還展示了一些模型的演示,能夠根據圖像和視頻提供多個查詢的信息。這些輸出還與NVIDIA之前發布的VILA 1.5模型進行了比較。

此外,NVIDIA詳細介紹了使用其他技術,如Dynamic-S2進行擴展、基於DeltaLoss的數據集修剪、使用FP8精度的量化等。這些技術的詳細信息可在Arxiv上查看,了解這些技術如何幫助模型。所有這些技術都應用於一個8B參數模型。

這篇報道突顯了NVIDIA在視覺AI領域的最新進展,展示了其新模型NVILA的強大能力及其潛在應用。這不僅反映出NVIDIA在技術上的持續創新,也為開放標準的發展提供了新的視角。隨著AI技術的不斷演進,如何在保持高效能的同時降低成本,將成為業界的一大挑戰。NVIDIA的“先擴展再壓縮”策略,無疑為解決這一問題提供了啟示,值得其他企業參考和學習。隨著這些技術的成熟,未來我們可能會看到更多關於視覺AI在各行各業中的應用,從醫療到娛樂,甚至是教育領域。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *