阿里巴巴推出最新開源視頻生成模型
阿里巴巴近日推出了其最新的開源視頻生成模型Wan2.1-FLF2V-14B。該模型旨在簡化視頻創作過程,允許用戶輸入起始和結束幀,以實現視頻的自動生成。這一創新技術將為短視頻創作者提供更大的創作自由,幫助他們高效且經濟地開發自己的AI模型和應用程序。
Wan2.1-FLF2V-14B是阿里巴巴基礎模型Wan2.1系列的一部分,該系列專門設計用於從文本和圖像生成高質量的圖像和視頻。該模型現已在Hugging Face、GitHub以及阿里巴巴雲的開源社區ModelScope上開放源碼。
該模型在執行用戶指令、保持首幀和生成視頻的一致性以及實現首尾幀之間的平滑過渡方面表現出色。它能夠根據用戶的提示詞生成720p分辨率的5秒視頻,且免費使用。
Wan2.1-FLF2V-14B的核心技術是一種創新的視頻生成方法,通過增加一個控制調整機制,實現了視頻生成的精確控制。該機制利用用戶提供的序列首尾幀作為控制條件,實現了首尾幀之間的平滑過渡。
為了確保視覺穩定性,該機制有助於將首尾幀的語義特徵注入生成過程,使模型在風格、內容和結構上保持一致性,同時動態轉換幀。
作為最早開放源碼的大型AI模型的全球科技公司之一,阿里巴巴雲在2025年2月開放源碼了四個Wan2.1模型。截至目前,這些模型在Hugging Face和ModelScope上已吸引了超過220萬次下載。
今年早些時候發布的Wan2.1系列是首個支持中文和英文文本效果的視頻生成模型。它在視頻生成模型綜合基準測試VBench排行榜上排名第一。
阿里巴巴雲於2023年8月發布了其首個開放大型語言模型(LLM)Qwen-7B。Qwen的開放模型一直在Hugging Face Open LLM排行榜上名列前茅,其性能與全球領先的AI模型相匹配。
近年來,阿里巴巴雲已開放源碼超過200個生成式AI模型。目前,已有超過10萬個基於Qwen家族模型的衍生模型在Hugging Face上開發,使其成為全球最著名的AI模型家族之一。
作為編輯,我認為阿里巴巴此次推出的開源視頻生成模型Wan2.1-FLF2V-14B具有里程碑式的意義。它不僅為短視頻創作者提供了更多的創作自由,還推動了AI技術在視頻生成領域的發展。同時,這也反映了阿里巴巴在推動AI技術開源和共享方面的 commitment。
然而,值得注意的是,隨著AI技術的不斷發展,視頻生成模型也面臨著諸多挑戰,如生成的視頻質量、內容審核等。因此,阿里巴巴需要繼續投入研發,不斷優化模型性能,以滿足用戶日益增長的需求。
此外,阿里巴巴的開放源碼策略也值得關注。通過開放源碼,阿里巴巴不僅推動了AI技術的發展,還促進了產業鏈的協同創新。這對於推動中國AI產業的發展具有積極意義。
總之,阿里巴巴此次推出的開源視頻生成模型Wan2.1-FLF2V-14B是AI技術發展的一個重要里程碑。它不僅為短視頻創作者提供了更多的創作自由,還推動了AI技術在視頻生成領域的發展。未來,阿里巴巴需要繼續投入研發,不斷優化模型性能,以滿足用戶日益增長的需求。