蘋果訓練大型語言模型 高效理解長片影片
蘋果研究團隊最近開發出一款改良版的SlowFast-LLaVA模型,能在長片影片分析及理解上,超越體積更大的模型。以下為詳細介紹。
技術細節解析
簡單來說,當大型語言模型(LLM)被訓練去理解影片時,它會先將影片拆分成多個畫面幀(frame),利用電腦視覺技術提取畫面特徵,分析這些特徵隨時間的變化,並將視覺訊息與語言對齊,從而能用文字描述或推理影片內容。
不過,一個非常低效的做法是分析影片中的每一個畫面幀,因為大部分幀之間變化不大,導致大量重複資訊。這會很快超過LLM的「上下文窗口」(context window)限制——也就是模型一次能處理的最大訊息量。當超出這個限制,模型為了繼續生成回應,會捨棄較早的資訊,影響理解的連貫性。
當然,目前有更高效的影片LLM訓練方法(例如NVIDIA近期發表的研究),但蘋果的這項研究基礎概念仍值得關注。
蘋果的研究突破
蘋果在論文《SlowFast-LLaVA-1.5:一系列高效Token利用的長片影片大型語言模型》中指出:
> 「影片大型語言模型結合了影片感知能力與預訓練的語言模型,能處理影片並回應使用者指令。雖然已有顯著進展,但現有影片LLM仍存在明顯限制。」
這些限制包括:
– 現有模型依賴極長的上下文窗口及大量畫面幀,效率低且難以縮小模型規模;
– 多數模型須經複雜的多階段訓練流程,且往往使用私有數據集,難以復現;
– 很多模型只針對影片任務優化,限制了它們作為同時理解影像與影片的通用模型的潛力。
為解決這些問題,蘋果首先採用開源的SlowFast-LLaVA模型,該模型透過雙流架構結合時空訊號:慢速流(slow stream)以較少幀數高細節觀察場景內容,快速流(fast stream)以較多幀數低細節追蹤動態變化。
蘋果先對SlowFast-LLaVA進行影像微調,建立通用視覺推理能力,然後同時訓練影像與影片(來自公開數據集),學習時間結構而不犧牲影像理解。
最終推出的SlowFast-LLaVA-1.5(SF-LLaVA-1.5)系列模型,涵蓋1億、3億及7億參數規模,在多項影片任務中表現超越體積更大的模型,有時優勢相當顯著。
在長片影片基準測試如LongVideoBench及MLVU中,SF-LLaVA-1.5在所有模型大小版本中均創下新紀錄,甚至最小的1億參數版本都表現優異。
此外,該模型在影像任務上同樣表現出色,包括知識推理、數學推理、文字識別(OCR)及文字豐富場景等測試。
蘋果團隊亦嘗試過多種影片壓縮策略,但發現現有配置在速度、準確度與token數量間取得最佳平衡。
限制與未來展望
SF-LLaVA-1.5設定最大輸入幀數為128,不論分析的是幾分鐘或幾小時的影片,模型都只會選取128幀,其中96幀分配給快速流,32幀給慢速流。
研究員指出:
> 「此設定可能會遺漏長片中的關鍵畫面,並可能誤導模型對影片播放速度的判斷。SF-LLaVA-1.5的表現仍可透過調整所有參數(包括視覺編碼器)進一步提升,但由於長片影片LLM需要大量GPU記憶體來緩存激活值,這並非易事。未來研究可探索整合節省記憶體的技術,如隨機反向傳播(Stochastic BP)。」
儘管如此,蘋果的做法已打造出一款公開數據集訓練、性能領先的先進模型。SF-LLaVA-1.5已開源,放在GitHub及Hugging Face平台,完整研究論文亦可在arXiv取得。
以下展示幾個模型實際運作範例:
(此處省略圖片)
—
評論與啟示
蘋果在長片影片理解領域的突破,顯示其在結合視覺和語言模型方面的深厚技術積累。SlowFast-LLaVA-1.5不僅在性能上超越更大型模型,更重要的是它的高效Token利用策略,為長影片處理提供了可行方案。
這種雙流架構的設計靈感源自人類視覺對動態與靜態訊息的不同處理方式,亦符合影片分析的本質需求:同時精細了解場景細節與動態變化。蘋果成功將這一理念落實於模型架構中,並透過公開數據集訓練,提升模型的通用性與可復現性。
然而,128幀限制仍是瓶頸,長片影片中關鍵瞬間可能被忽略,影響理解深度。未來若能結合記憶優化技術及更智能的畫面選擇策略,模型將更具突破性。
此外,蘋果此舉也強化了AI模型開源生態,給予全球研究者更多樣本與工具,促進人工智能在視覺語言領域的共同進步。同時,這種模型不僅限於影片分析,亦可擴展到多媒體內容理解、智能監控、甚至虛擬助理的多模態交互,前景廣闊。
總結而言,蘋果這項研究不只是技術上的勝利,更是對AI多模態理解未來發展方向的有力指引,值得業界持續關注與借鑒。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。