
混合式AI模型秒製流暢高質素影片
麻省理工學院(MIT)電腦科學與人工智能實驗室(CSAIL)聯同Adobe研究團隊,研發出一款名為「CausVid」的生成式AI工具。這套混合模型結合了擴散模型與自回歸系統,能迅速產生穩定且高解析度的影片,製作時間只需數秒。
傳統上,像OpenAI的SORA或Google的VEO 2等擴散模型,是一次處理整個影片序列來生成畫面,雖然成像逼真,但速度慢且難以即時修改。相比之下,CausVid則是先用擴散模型「教導」自回歸模型如何逐幀預測下一畫面,令後者能以更快速度生成連貫的影片。用戶只需輸入簡單文字提示,如「生成一個男人過馬路」,便可快速製作出流暢影片,甚至可在生成過程中添加新指令,如「他到達對面路人時寫筆記」,實現互動式創作。
CausVid不但能將50步驟的製作過程濃縮成幾步,還能創作多種富有想象力的場景,例如紙飛機變成天鵝、長毛象在雪地漫步、孩子在水坑跳躍等,展現出藝術性和趣味性。
研究人員表示,這套模型未來可應用於多種影片編輯任務,例如自動生成與語音翻譯同步的影片,幫助觀眾理解外語直播內容;亦可用於遊戲內容生成,或快速製作機械人訓練模擬影片。CausVid的混合架構結合了擴散模型的高質素與自回歸模型的高效率,有效避免了以往逐幀生成時常見的畫面錯亂和不自然問題。
在測試中,CausVid在生成10秒高解析度影片時,速度比現有模型快上100倍,且影片穩定性和質素都領先對手。更長的30秒影片測試亦證明了其優越的連貫性和畫質,顯示未來有望製作更長時間甚至無限長的穩定影片。用戶也更喜愛由自回歸學生模型產出的影片,因為速度更快且質素不輸老師模型。
此外,CausVid在超過900條文本提示的測試中,以整體得分84.27高居榜首,特別在成像質量和人類動作的真實感方面超越了現有最先進模型,如Vchitect和Gen-3。
MIT研究員殷天偉指出,未來若將模型訓練於特定領域數據,如機械人或遊戲,影片質素將更進一步提升。專家亦認為,這種混合系統是擴散模型的重大升級,因為擴散模型現時運算速度緩慢,而CausVid的高效生成將推動更快串流、更互動的應用,並減少碳足跡。
CausVid的研究成果將於六月的計算機視覺與模式識別會議(CVPR)發表,該項目獲得亞馬遜科學中心、光州科學技術院、Adobe、Google、美國空軍研究實驗室和人工智能加速器的支持。
—
評論與啟示
CausVid的誕生標誌著AI影片生成技術的一大突破,尤其是將擴散模型與自回歸架構巧妙結合,兼顧了畫質與速度,這在過去一直是兩難的問題。對香港的創意產業和媒體業來說,這種技術意味著影像製作門檻將大幅降低,創作者能更快更靈活地製作高質素視覺內容,從動畫、廣告到虛擬實境都有廣泛應用潛力。
然而,這同時也帶來深層次挑戰。首先是內容的監管與版權問題,AI生成影片的原創性與責任界定仍待明確。其次,當生成速度大幅提升,如何防止假新聞、深偽影片泛濫,保護公眾免受誤導,是社會必須正視的課題。
從技術角度看,CausVid的混合模型方法或成為未來生成式AI的主流路徑,因為它示範了透過「師徒制」讓大型模型指導輕量模型,兼顧效率與品質的新思維。未來若能結合更多多模態數據(如音頻、文字、動作捕捉),有望打造出更智能、更擬真的虛擬世界。
總括而言,CausVid不只是一個技術創新,更是推動數碼媒體生態變革的關鍵力量。香港作為國際創意城市,應積極關注和吸納此類前沿技術,推動本地產業升級,同時制定相應的規範與指引,確保技術健康發展,為用戶帶來更多正面價值。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。