結合下一個令牌預測和視頻擴散於計算機視覺與機器人領域
麻省理工學院的研究人員提出了一種新方法,能夠訓練神經網絡在排序損壞數據的同時預測下一步,這對於機器人靈活計劃、高質量視頻生成以及幫助人工智能代理導航數字環境都大有裨益。
人工智能的時代潮流
在當前的人工智能潮流中,序列模型因其分析數據和預測下一步的能力而受到廣泛關注。例如,像ChatGPT這樣的下一個令牌預測模型,可以預測序列中的每個單詞(令牌),以形成對用戶查詢的回答。此外,還有像Sora這樣的全序列擴散模型,通過逐步“去噪”整個視頻序列,將文字轉換為令人驚嘆的逼真視覺效果。
麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員提出了一種簡單的擴散訓練方案變化,使得這種序列去噪更加靈活。
結合模型的優勢
應用於計算機視覺和機器人領域時,下一個令牌和全序列擴散模型各有優勢。下一個令牌模型可以生成長度可變的序列,但它們在生成序列時未能考慮到較遠的未來狀態,因此需要額外的機制來進行長期規劃。擴散模型可以進行這種未來條件抽樣,但缺乏生成可變長度序列的能力。
CSAIL的研究人員希望結合這兩種模型的優勢,因此創建了一種稱為“擴散強迫”的序列模型訓練技術。這個名字來自“教師強迫”,即將完整序列生成分解為更小、更簡單的下一個令牌生成步驟的傳統訓練方案。
擴散強迫的應用
擴散強迫在擴散模型和教師強迫之間找到了共同點:它們都使用涉及從未屏蔽的令牌中預測被屏蔽(有噪音)令牌的訓練方案。在擴散模型的情況下,它們逐漸向數據中添加噪音,這可以被視為部分屏蔽。麻省理工的研究人員的擴散強迫方法訓練神經網絡清除一系列令牌中的不同噪音,同時預測接下來的幾個令牌。結果是一種靈活、可靠的序列模型,能生成更高質量的人工視頻,並為機器人和AI代理提供更精確的決策。
通過排序噪音數據並可靠地預測任務中的下一步,擴散強迫可以幫助機器人忽略視覺干擾以完成操作任務。它還可以生成穩定且一致的視頻序列,甚至引導AI代理穿越數字迷宮。這種方法可能使家庭和工廠機器人能夠普遍適應新任務,並改善AI生成的娛樂內容。
未來展望
研究團隊目前正尋求將他們的方法擴展到更大的數據集和最新的變壓器模型,以提高性能。他們打算擴展他們的工作,以建立一個類似ChatGPT的機器人“大腦”,幫助機器人在無人示範的新環境中執行任務。
“通過擴散強迫,我們正在邁出一步,將視頻生成和機器人技術更加緊密地結合在一起,”麻省理工學院助理教授及CSAIL成員文森特·西茨曼說。“最終,我們希望能夠利用互聯網上視頻中儲存的所有知識,使機器人能夠在日常生活中提供幫助。”
評論
這項研究展示了人工智能領域的創新性發展,尤其是在如何有效結合不同模型的優勢方面。擴散強迫技術不僅提升了視頻生成的質量,還增強了機器人的操作能力。這一技術的潛力巨大,未來可能在工業自動化、家庭服務機器人等領域發揮重要作用。然而,隨著這些技術的進一步發展,倫理和安全問題也需要得到重視。如何確保這些技術在現實世界中的應用不會帶來意想不到的後果,將是未來研究的重要方向。
以上文章由特價GPT API KEY所翻譯。而圖片則由FLUX根據內容自動生成。