開源AI視頻生成新星:Pyramid Flow登場!

Ai

**新高質AI視頻生成器Pyramid Flow推出——完全開源!**

AI視頻生成模型的數量不斷增長,本週推出了一個新的模型——Pyramid Flow,提供高質量的視頻片段,長達10秒,速度快且完全開源。

Pyramid Flow由北京大學、北京郵電大學和快手科技的研究人員合作開發,其中快手科技是備受好評的Kling AI視頻生成器的創造者。Pyramid Flow利用了一種新技術,單一AI模型以階段性生成視頻,大部分階段為低分辨率,僅在生成過程的最後階段保存全分辨率版本。

該模型的源代碼可在Hugging Face和Github上下載,用戶需要在自己的機器上下載並運行模型代碼。

在推理過程中,該模型可以在56秒內生成一個5秒、384p的視頻,速度與許多全序列擴散模型相當甚至更快。然而,Runway的Gen 3-Alpha Turbo在AI視頻生成速度方面仍然佔據優勢,通常在我們的測試中只需10-20秒。

雖然我們尚未測試Pyramid Flow,但模型創作者發布的視頻看起來非常逼真,分辨率高且引人入勝,與專有產品相媲美。在其Github項目頁面上可以看到各種示例。

Pyramid Flow現在已經可以下載和使用,甚至可用於商業/企業用途,旨在直接與Runway的Gen-3 Alpha、Luma的Dream Machine、Kling和Haulio等付費專有產品競爭,這些產品的用戶訂閱費用可能高達數百甚至數千美元一年。

隨著各種AI視頻供應商之間的競爭加劇,Pyramid Flow旨在為尋求先進視頻生成功能的開發者、藝術家和創作者帶來更多效率和靈活性。

**高質量AI視頻的新技術:‘金字塔流匹配’**

AI視頻生成是一項計算密集型任務,通常涉及建模大規模的時空空間。傳統方法通常需要不同階段的單獨模型,這限制了靈活性並增加了訓練的複雜性。

Pyramid Flow基於金字塔流匹配的概念,這種方法大大降低了視頻生成的計算成本,同時保持高視覺質量,將視頻生成過程分為一系列“金字塔”階段,只有最後階段在全分辨率下運行。

該方法在一篇預審的論文中被描述,名為《Pyramidal Flow Matching for Efficient Video Generative Modeling》,於2024年10月8日提交至開放科學期刊arXiv。

作者包括楊晉、孫智成、李寧遠、徐坤、姜浩、莊楠、黃屈哲、宋揚、穆亞東和林周辰。大多數研究人員隸屬於北京大學,其他則來自快手科技。

他們指出,能夠在不同階段壓縮和優化視頻生成,導致訓練過程中的更快收斂,使Pyramid Flow能夠在每批訓練中生成更多樣本。

例如,所提出的金字塔流相比傳統擴散模型將令牌數量減少了四倍,從而提高了訓練效率。

該模型可以生成5到10秒長的768p分辨率和24幀每秒的視頻,所有這些均在開源數據集上進行訓練。具體而言,論文指出Pyramid Flow曾在以下數據集上進行訓練:

– LAION-5B,一個用於多模態AI研究的大型數據集。
– CC-12M,一個網絡抓取的圖像-文本對數據集。
– SA-1B,特點是高質量、無模糊的圖像。
– WebVid-10M和OpenVid-1M,這是廣泛用於文本到視頻生成的視頻數據集。

總共,作者策劃了大約1000萬個單鏡頭視頻。

然而,這些“公開”或“開源”數據集近年來被批評為包含未經許可或未經版權持有人知情同意的版權材料,特別是LAION-5B被指控托管了兒童性虐待材料。

此外,Runway是被藝術家集體訴訟的公司之一,因為他們在未經許可、補償或同意的情況下使用材料進行訓練,涉嫌違反美國版權法。該案目前仍在法庭上進行。

**允許商業用途的開源許可**

Pyramid Flow在MIT許可下發布,允許廣泛使用,包括商業應用、修改和再分發,只要保留版權聲明。

這使得Pyramid Flow成為開發者和公司尋求將模型集成到專有系統中的一個具有吸引力的選擇,並可能挑戰Luma AI和Runway,因為這兩者都希望為尋求將其專有AI視頻生成技術集成到客戶或員工應用程序中的開發者提供付費應用程序編程接口。

然而,這些專有模型已經存在於適合開發者使用的推理中,而Pyramid Flow在Hugging Face上有一個演示推理,但不適合構建完整應用程序,並且用戶需要託管自己的推理版本,儘管模型本身是“免費的”,但這可能也會很昂貴。

此外,Pyramid Flow可能對希望利用AI提高效率、降低成本和探索新創意工具的電影工作室具有吸引力。一家主要電影工作室Lionsgate——擁有《疾速追殺》和《暮光之城》等多個系列——最近簽署了一筆未公開金額的交易,讓Runway訓練一個定制的AI視頻生成模型。此外,《泰坦尼克號》和《終結者》導演詹姆斯·卡梅隆加入了AI視頻和圖像模型提供商Stability的董事會(後者也受到與Runway相同的藝術家集體訴訟)。

使用Pyramid Flow,Lionsgate或任何其他電影工作室可以微調開源版本,而無需支付第三方公司。然而,他們仍然需要擁有或外包所需的開發者人才和計算資源,這可能使得與像Runway這樣的已建立的AI供應商合作更具吸引力,因為該公司和其他類似公司已經擁有AI工程人才。

金字塔流匹配背後的研究團隊也承諾開放和可訪問性。所有代碼和模型權重將通過其官方項目頁面免費提供給公眾,確保全球研究人員和開發者可以利用和構建這項工作。

儘管有其優勢,Pyramid Flow仍然存在一些限制。目前,它缺乏Runway Gen-3 Alpha等模型中所具有的一些先進微調功能,這些功能提供對電影元素如攝像機角度、關鍵幀和人體姿勢的精確控制。同樣,Luma的Dream Machine提供的先進攝影機控制選項也是Pyramid Flow仍在追趕的。

此外,Pyramid Flow的推出相對較新,其生態系統雖然強大,但還不如競爭對手那麼成熟。

**展望未來:AI視頻競賽沒有放緩跡象**

隨著AI視頻生成市場的持續發展,Pyramid Flow的推出標誌著向更易於接觸的開源解決方案的轉變,這些解決方案可以與Runway和Luma等專有產品競爭。

目前,它為那些希望避免封閉模型的成本和限制的人提供了一個堅實的替代方案,同時提供與其更商業化對手相當的令人印象深刻的視頻質量。

在未來幾個月,開發者和創作者可能會密切關注Pyramid Flow的增長。隨著進一步改進和優化的潛力,它很可能成為視頻內容創作者的必備工具。目前,所有公司和研究人員都在為技術霸主地位和用戶競爭。

同時,OpenAI的Sora,自2024年2月首次亮相以來,除了一小部分早期alpha用戶的合作外,尚未露面。

**評論:**

Pyramid Flow的推出無疑為AI視頻生成領域帶來了一股清新的風潮。其開源性質尤其值得讚賞,這不僅為開發者提供了更大的靈活性,還可能改變市場格局。然而,開源也帶來了挑戰,尤其是在需要自行承擔技術支持和運行成本的情況下。這為開發者提供了機會,但也要求他們具備更高的技術能力。隨著技術的不斷進步,未來AI視頻生成的應用範圍和潛力將愈加廣闊。Pyramid Flow能否在這場競賽中脫穎而出,仍需拭目以待。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *