結合下一個標籤預測和視頻擴散於計算機視覺和機器人技術
麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員提出了一種新方法,可以訓練神經網絡在處理受損數據的同時預測下一步行動。這種方法能夠為機器人制定靈活的計劃,生成高質量的視頻,並幫助AI代理在數字環境中導航。
新的“擴散強制”方法
這種名為“擴散強制(Diffusion Forcing)”的方法可以篩選噪聲數據並可靠地預測任務的下一步。例如,在一項實驗中,它幫助一個機械臂重新排列玩具水果到目標位置,儘管起始位置隨機且有視覺干擾。這項研究由MIT CSAIL的Alex Shipps領導,並於2024年10月16日發表。
在當前的AI潮流中,序列模型因其分析數據和預測下一步行動的能力而迅速受歡迎。比如,你可能使用過的ChatGPT,它通過預測每個單詞(標籤)來回答用戶的問題。此外,還有全序列擴散模型如Sora,它通過逐步“去噪”整個視頻序列將單詞轉換為真實的視覺效果。
MIT CSAIL的研究人員對擴散訓練方案進行了一個簡單的改變,使這種序列去噪變得更加靈活。
模型結合的優勢
當應用於計算機視覺和機器人技術領域時,下一個標籤和全序列擴散模型各有優缺點。下一個標籤模型可以生成長度可變的序列,但在生成時無法預知遠期的理想狀態,因此需要額外的機制進行長期規劃。而擴散模型可以進行未來條件的取樣,但缺乏生成可變長度序列的能力。
CSAIL的研究人員希望結合兩種模型的優勢,因此創建了一種名為“擴散強制”的序列模型訓練技術。這個名字來自於“教師強制(Teacher Forcing)”,即將完整的序列生成分解為更小、更容易的下一個標籤生成步驟。
擴散強制的應用
擴散強制找到了擴散模型和教師強制之間的共同點:它們都使用涉及預測掩蔽(噪聲)標籤的訓練方案。擴散模型逐步向數據添加噪聲,可以視為分數掩蔽。MIT研究人員的擴散強制方法訓練神經網絡清除標籤集合中的不同程度的噪聲,同時預測接下來的幾個標籤。結果是一種靈活、可靠的序列模型,能生成更高質量的人工視頻,並為機器人和AI代理提供更精確的決策。
通過篩選噪聲數據並可靠地預測任務的下一步,擴散強制可以幫助機器人忽略視覺干擾完成操作任務。它還能生成穩定且一致的視頻序列,甚至引導AI代理穿越數字迷宮。這種方法可能使家庭和工廠機器人能夠適應新任務,並改進AI生成的娛樂內容。
“序列模型旨在基於已知的過去來預測未知的未來,一種二元掩蔽。但掩蔽不需要是二元的,”MIT電氣工程和計算機科學(EECS)博士生兼CSAIL成員Boyuan Chen說。“通過擴散強制,我們向每個標籤添加不同級別的噪聲,實際上充當一種分數掩蔽。在測試時,我們的系統可以在較低噪聲級別下‘去掩蔽’標籤集合並擴散接近未來的序列。它知道如何在數據中找到可信的部分,以克服分布外的輸入。”
在幾個實驗中,擴散強制在忽略誤導性數據以執行任務的同時,能夠預測未來行動。
例如,當應用於機械臂時,它幫助在三個圓形墊子上交換兩個玩具水果,這是一個需要記憶的長期任務家族的最小例子。研究人員通過在虛擬現實中遠程控制(或遙控)機器人來對其進行訓練。機器人被訓練模仿用戶從其攝像頭看到的動作。儘管起始位置隨機且看到如購物袋遮擋標記的干擾,它依然能將物體放置到目標位置。
為了生成視頻,他們在《Minecraft》遊戲和Google的DeepMind Lab模擬器內創建的多彩數字環境中訓練擴散強制。當給予單幀畫面時,這種方法生成的視頻比類似Sora的全序列擴散模型和類似ChatGPT的下一個標籤模型更穩定和高解析度。這些方法生成的視頻顯得不一致,後者有時甚至無法生成超過72幀的工作視頻。
擴散強制不僅能生成奇妙的視頻,還可以作為一個運動規劃器,朝著期望的結果或獎勵方向前進。由於其靈活性,擴散強制可以獨特地生成具有不同視野的計劃,進行樹搜索,並納入遠期未來比近期未來更不確定的直覺。在解決2D迷宮的任務中,擴散強制通過生成更快到達目標位置的計劃,超過了六個基準,表明它可能成為未來機器人的有效規劃器。
在每個演示中,擴散強制既扮演了全序列模型的角色,也扮演了下一個標籤預測模型的角色,甚至是兩者的結合。根據Chen的說法,這種多功能的方法有可能成為“世界模型”的強大支柱,這是一種可以通過在互聯網上訓練數十億視頻來模擬世界動態的AI系統。這將使機器人能夠通過想像它們需要做什麼來執行新任務。例如,如果你讓機器人開門,而它沒有接受過如何開門的訓練,該模型可以生成一個視頻,向機器展示如何操作。
該團隊目前正在尋求將其方法擴展到更大的數據集和最新的變壓器模型,以提高性能。他們打算擴展他們的工作,建立一個類似ChatGPT的機器人腦,幫助機器人在無需人類示範的情況下在新環境中執行任務。
“通過擴散強制,我們正在將視頻生成和機器人技術更緊密地結合在一起,”CSAIL成員、場景表示組組長、MIT助理教授Vincent Sitzmann說。“最終,我們希望能夠利用互聯網上存儲的所有視頻知識,讓機器人能夠在日常生活中提供幫助。還有許多令人興奮的研究挑戰,例如機器人如何通過觀看人類來學習模仿,即使它們自己的身體與我們的完全不同!”
Chen和Sitzmann與最近的MIT訪問研究員Diego Martí Monsó,以及CSAIL的附屬成員:EECS研究生Yilun Du、前博士後和即將成為卡內基梅隆大學助理教授的Max Simchowitz、以及MIT Toyota研究所副總裁兼CSAIL成員Russ Tedrake共同撰寫了這篇論文。他們的工作部分得到了美國國家科學基金會、新加坡國防科技局、通過美國內政部的情報先進研究項目活動和亞馬遜科學中心的支持。他們將在12月的NeurIPS會議上展示他們的研究成果。
—
編者評論:這項研究展示了人工智能和機器人技術的未來潛力。擴散強制方法不僅在技術上具有突破性,還展示了AI如何在實際應用中變得更加靈活和高效。這種方法不僅有助於改善現有的AI系統,還有望推動家庭和工廠機器人技術的進步。隨著技術的進一步發展,我們或許能看到更多智能機器人能夠自主學習並適應新環境,這將對我們的日常生活產生深遠影響。然而,這也提醒我們在推動技術前進的同時,需謹慎考慮其倫理和社會影響。
以上文章由特價GPT API KEY所翻譯