蘋果大語言模型突破長片影片理解新境界

Ai

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援
Flux Gemini Nano Banana Pro 改圖 / 合成
打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩

✨ 即刻玩 AI 畫圖

Wide-angle vertical group selfie shot, the man from @imgl in his usual outfit (same clothes as @imgl), natural everyday grooming, candid natural expression, holding the phone vertically for a selfie.
Key Characters: Only the core Avengers join in frame: Iron Man, Captain America, and Black Widow in official costumes.
Background & Environment: Mid-shoot on a movie set with practical debris plus some green screen sections; visible cinema cameras, lighting rigs, crew, clapperboard, candid BTS vibe.
Technical Specs: Ultra photorealistic, 8K, highly detailed, no text/logos/watermark, Vertical Portrait Mode, Aspect Ratio 9:16 --ar 9:16
A young person with short blonde hair squatting confidently in front of a white sports car on a wet city street at night. Captured with a wide-angle fisheye lens for dramatic distortion. Neon signs, Japanese billboards, and glowing city lights reflect on the wet pavement. Moody, cyberpunk-inspired atmosphere with light rain and soft reflections. Casual streetwear—oversized dark sweatshirt, loose grey pants, worn sneakers. Background filled with vibrant nightlife, blurred car headlights, and bustling urban energy. High contrast, teal-orange tones, cinematic depth, film grain, atmospheric haze, shallow depth of field, 35mm film look, poster-style composition, ultra-realistic lighting.
The same person, the same face, unaltered features. An almost hyperrealistic image with sharp detail, a stylish photograph captures a model standing against a backdrop of pristine white volcanic rocks. The stones are expertly arranged, revealing natural cracks in the beige hue. In a medium-length shot, the balance of luxury and meticulous attention to detail is striking. She wears a carefully tailored white suit: a jacket with a structured fabric, high shoulders, and precise waist trim, a deep V-neck that elegantly reveals the neckline without being contrived, and matching skirts that maintain clean lines and lend the look a classic, understated elegance. The head is covered by a wide-brimmed white straw hat, its high angle pointing forward and adorned with a bouquet of red and white roses resting on the front brim, adding a touch of drama and romance. Green eyes, professional makeup, full lips, and long, sleek blonde hair cascading over her shoulders. Her right hand lifts the brim of the hat as if adjusting it, while her left hand crosses her chest in a confident pose that reflects a strong feminine presence. The fabric's lines and texture are carefully highlighted with a long, graceful touch of movement. The fabric details are delicate and soft, with subtle ripples and hidden seams that enhance the sense of high craftsmanship. Soft lighting from the left creates a long shadow on the wall, giving the image depth and body without compromising the purity of the white. Shades of white blend with a touch of warm gray, and the red roses stand out as a focal point, adding warmth and visual dimension. The stone background creates a calming effect, allowing the fine details of the hat, suit, and roses to stand out. White volcanic stones. Natural fissures. Keywords: Luxury, High Fashion, Studio Photography, High Definition, Photographic Realism, Blonde Hair, Green Eyes, Professional Makeup, Cinematic Look, Color Balance. Negative Prompt: Blurry, Low Quality, Deformed Hands, Ugly, Plastic Look, Watermark, Oversaturated, Underexposed, Noise, Grain, Artifacts, Cropped, Halo, Glow

蘋果訓練大型語言模型 高效理解長片影片

蘋果研究團隊最近開發出一款改良版的SlowFast-LLaVA模型,能在長片影片分析及理解上,超越體積更大的模型。以下為詳細介紹。

技術細節解析

簡單來說,當大型語言模型(LLM)被訓練去理解影片時,它會先將影片拆分成多個畫面幀(frame),利用電腦視覺技術提取畫面特徵,分析這些特徵隨時間的變化,並將視覺訊息與語言對齊,從而能用文字描述或推理影片內容。

不過,一個非常低效的做法是分析影片中的每一個畫面幀,因為大部分幀之間變化不大,導致大量重複資訊。這會很快超過LLM的「上下文窗口」(context window)限制——也就是模型一次能處理的最大訊息量。當超出這個限制,模型為了繼續生成回應,會捨棄較早的資訊,影響理解的連貫性。

當然,目前有更高效的影片LLM訓練方法(例如NVIDIA近期發表的研究),但蘋果的這項研究基礎概念仍值得關注。

蘋果的研究突破

蘋果在論文《SlowFast-LLaVA-1.5:一系列高效Token利用的長片影片大型語言模型》中指出:

> 「影片大型語言模型結合了影片感知能力與預訓練的語言模型,能處理影片並回應使用者指令。雖然已有顯著進展,但現有影片LLM仍存在明顯限制。」

這些限制包括:

– 現有模型依賴極長的上下文窗口及大量畫面幀,效率低且難以縮小模型規模;
– 多數模型須經複雜的多階段訓練流程,且往往使用私有數據集,難以復現;
– 很多模型只針對影片任務優化,限制了它們作為同時理解影像與影片的通用模型的潛力。

為解決這些問題,蘋果首先採用開源的SlowFast-LLaVA模型,該模型透過雙流架構結合時空訊號:慢速流(slow stream)以較少幀數高細節觀察場景內容,快速流(fast stream)以較多幀數低細節追蹤動態變化。

蘋果先對SlowFast-LLaVA進行影像微調,建立通用視覺推理能力,然後同時訓練影像與影片(來自公開數據集),學習時間結構而不犧牲影像理解。

最終推出的SlowFast-LLaVA-1.5(SF-LLaVA-1.5)系列模型,涵蓋1億、3億及7億參數規模,在多項影片任務中表現超越體積更大的模型,有時優勢相當顯著。

在長片影片基準測試如LongVideoBench及MLVU中,SF-LLaVA-1.5在所有模型大小版本中均創下新紀錄,甚至最小的1億參數版本都表現優異。

此外,該模型在影像任務上同樣表現出色,包括知識推理、數學推理、文字識別(OCR)及文字豐富場景等測試。

蘋果團隊亦嘗試過多種影片壓縮策略,但發現現有配置在速度、準確度與token數量間取得最佳平衡。

限制與未來展望

SF-LLaVA-1.5設定最大輸入幀數為128,不論分析的是幾分鐘或幾小時的影片,模型都只會選取128幀,其中96幀分配給快速流,32幀給慢速流。

研究員指出:

> 「此設定可能會遺漏長片中的關鍵畫面,並可能誤導模型對影片播放速度的判斷。SF-LLaVA-1.5的表現仍可透過調整所有參數(包括視覺編碼器)進一步提升,但由於長片影片LLM需要大量GPU記憶體來緩存激活值,這並非易事。未來研究可探索整合節省記憶體的技術,如隨機反向傳播(Stochastic BP)。」

儘管如此,蘋果的做法已打造出一款公開數據集訓練、性能領先的先進模型。SF-LLaVA-1.5已開源,放在GitHub及Hugging Face平台,完整研究論文亦可在arXiv取得。

以下展示幾個模型實際運作範例:

(此處省略圖片)

評論與啟示

蘋果在長片影片理解領域的突破,顯示其在結合視覺和語言模型方面的深厚技術積累。SlowFast-LLaVA-1.5不僅在性能上超越更大型模型,更重要的是它的高效Token利用策略,為長影片處理提供了可行方案。

這種雙流架構的設計靈感源自人類視覺對動態與靜態訊息的不同處理方式,亦符合影片分析的本質需求:同時精細了解場景細節與動態變化。蘋果成功將這一理念落實於模型架構中,並透過公開數據集訓練,提升模型的通用性與可復現性。

然而,128幀限制仍是瓶頸,長片影片中關鍵瞬間可能被忽略,影響理解深度。未來若能結合記憶優化技術及更智能的畫面選擇策略,模型將更具突破性。

此外,蘋果此舉也強化了AI模型開源生態,給予全球研究者更多樣本與工具,促進人工智能在視覺語言領域的共同進步。同時,這種模型不僅限於影片分析,亦可擴展到多媒體內容理解、智能監控、甚至虛擬助理的多模態交互,前景廣闊。

總結而言,蘋果這項研究不只是技術上的勝利,更是對AI多模態理解未來發展方向的有力指引,值得業界持續關注與借鑒。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

📣 即刻用 Google Workspace|唔使vpn都能享用 Google AI Pro

即使你只係一個人,都可以透過 Google Workspace 使用 官方Gemini AI Pro(原價 HK$160), 而在 Google Workspace 只要 HK$131 / 月

🔓 14 天免費試用
🔖 用呢條連結申請再有 額外 9 折
🇭🇰 香港可直接付款(香港信用卡)
🛡️ 不用 VPN,立即開用
🤖 可用 最新最紅Gemini 3 Pro & Nano Banana Pro
👉 立即登記 14 天免費試用 + 額外 9 折