AI秒速製片：MIT新技術，影片質素又快又正！

zero comment

混合式AI模型秒製流暢高質素影片

麻省理工學院（MIT）電腦科學與人工智能實驗室（CSAIL）聯同Adobe研究團隊，研發出一款名為「CausVid」的生成式AI工具。這套混合模型結合了擴散模型與自回歸系統，能迅速產生穩定且高解析度的影片，製作時間只需數秒。

傳統上，像OpenAI的SORA或Google的VEO 2等擴散模型，是一次處理整個影片序列來生成畫面，雖然成像逼真，但速度慢且難以即時修改。相比之下，CausVid則是先用擴散模型「教導」自回歸模型如何逐幀預測下一畫面，令後者能以更快速度生成連貫的影片。用戶只需輸入簡單文字提示，如「生成一個男人過馬路」，便可快速製作出流暢影片，甚至可在生成過程中添加新指令，如「他到達對面路人時寫筆記」，實現互動式創作。

CausVid不但能將50步驟的製作過程濃縮成幾步，還能創作多種富有想象力的場景，例如紙飛機變成天鵝、長毛象在雪地漫步、孩子在水坑跳躍等，展現出藝術性和趣味性。

研究人員表示，這套模型未來可應用於多種影片編輯任務，例如自動生成與語音翻譯同步的影片，幫助觀眾理解外語直播內容；亦可用於遊戲內容生成，或快速製作機械人訓練模擬影片。CausVid的混合架構結合了擴散模型的高質素與自回歸模型的高效率，有效避免了以往逐幀生成時常見的畫面錯亂和不自然問題。

在測試中，CausVid在生成10秒高解析度影片時，速度比現有模型快上100倍，且影片穩定性和質素都領先對手。更長的30秒影片測試亦證明了其優越的連貫性和畫質，顯示未來有望製作更長時間甚至無限長的穩定影片。用戶也更喜愛由自回歸學生模型產出的影片，因為速度更快且質素不輸老師模型。

此外，CausVid在超過900條文本提示的測試中，以整體得分84.27高居榜首，特別在成像質量和人類動作的真實感方面超越了現有最先進模型，如Vchitect和Gen-3。

MIT研究員殷天偉指出，未來若將模型訓練於特定領域數據，如機械人或遊戲，影片質素將更進一步提升。專家亦認為，這種混合系統是擴散模型的重大升級，因為擴散模型現時運算速度緩慢，而CausVid的高效生成將推動更快串流、更互動的應用，並減少碳足跡。

CausVid的研究成果將於六月的計算機視覺與模式識別會議（CVPR）發表，該項目獲得亞馬遜科學中心、光州科學技術院、Adobe、Google、美國空軍研究實驗室和人工智能加速器的支持。

—

評論與啟示

CausVid的誕生標誌著AI影片生成技術的一大突破，尤其是將擴散模型與自回歸架構巧妙結合，兼顧了畫質與速度，這在過去一直是兩難的問題。對香港的創意產業和媒體業來說，這種技術意味著影像製作門檻將大幅降低，創作者能更快更靈活地製作高質素視覺內容，從動畫、廣告到虛擬實境都有廣泛應用潛力。

然而，這同時也帶來深層次挑戰。首先是內容的監管與版權問題，AI生成影片的原創性與責任界定仍待明確。其次，當生成速度大幅提升，如何防止假新聞、深偽影片泛濫，保護公眾免受誤導，是社會必須正視的課題。

從技術角度看，CausVid的混合模型方法或成為未來生成式AI的主流路徑，因為它示範了透過「師徒制」讓大型模型指導輕量模型，兼顧效率與品質的新思維。未來若能結合更多多模態數據（如音頻、文字、動作捕捉），有望打造出更智能、更擬真的虛擬世界。

總括而言，CausVid不只是一個技術創新，更是推動數碼媒體生態變革的關鍵力量。香港作為國際創意城市，應積極關注和吸納此類前沿技術，推動本地產業升級，同時制定相應的規範與指引，確保技術健康發展，為用戶帶來更多正面價值。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

AI秒速製片：MIT新技術，影片質素又快又正！

chatgpt

Related Articles

Jefferies大幅沽出阿里巴巴股票揭秘！

AI發展新挑戰：開放模型與倫理抉擇

中國突破美國晶片封鎖 AI市場大洗牌！