機械能否從機器夢中學習?
麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員利用AI生成的圖像,訓練一隻機器狗進行跑酷,而無需真實世界數據。他們的LucidSim系統展示了生成式AI在創建機器人訓練數據方面的潛力。
對於機器人學家來說,最大的挑戰之一就是「泛化」——即創建能夠適應任何環境或條件的機器。自1970年代以來,這一領域從編寫複雜的程序發展到使用深度學習,教導機器人直接從人類行為中學習。然而,一個關鍵的瓶頸仍然存在:數據質量。為了改善,機器人需要遇到挑戰其能力邊界的場景,這一過程傳統上需要人類的監督,操作者小心翼翼地挑戰機器人以擴展其能力。隨著機器人變得越來越複雜,這種手動方法面臨著擴展的問題:高質量訓練數據的需求遠遠超過人類提供的能力。
現在,一組麻省理工學院CSAIL的研究人員開發了一種新穎的機器人訓練方法,可以顯著加速可適應、智能機器在現實環境中的部署。這個新系統名為「LucidSim」,利用生成式AI和物理模擬器的最新進展,創建多樣且逼真的虛擬訓練環境,幫助機器人在艱難任務中達到專家級表現,而無需任何真實世界數據。
LucidSim結合了物理模擬和生成式AI模型,解決了機器人學中的一個持久挑戰:將在模擬中學到的技能轉移到現實世界。「機器學習中的一個基本挑戰一直是所謂的『模擬到現實的差距』——模擬訓練環境和複雜、不可預測的現實世界之間的差異。」麻省理工學院CSAIL的博士後研究員Ge Yang說,他是LucidSim的主要研究者。「以往的方法往往依賴於深度傳感器,這簡化了問題,但錯過了現實世界的關鍵複雜性。」
這個多方面的系統融合了不同的技術。在其核心,LucidSim使用大型語言模型生成環境的各種結構化描述,這些描述然後通過生成模型轉換成圖像。為了確保這些圖像反映現實物理,使用了基礎的物理模擬器來指導生成過程。
靈感的誕生:從墨西哥卷餅到突破性進展
LucidSim的靈感來自一個意想不到的地方:在麻省劍橋的Beantown Taqueria外的一次對話。「我們想教會裝有視覺的機器人如何利用人類反饋進行改進。但隨後,我們意識到我們一開始並沒有純粹基於視覺的政策。」麻省理工學院電氣工程和計算機科學(EECS)的本科生Alan Yu說,他是LucidSim的共同首席作者。「我們邊走邊討論,然後在墨西哥餐廳外停下來,聊了大約半個小時。那時我們有了靈感。」
為了生成數據,團隊通過從模擬場景中提取深度圖和語義掩碼來生成逼真的圖像。他們很快意識到,若對圖像內容的組成進行嚴格控制,模型會生成相似的圖像,這些圖像在使用相同提示時並沒有顯著不同。因此,他們設計了一種從ChatGPT獲取多樣文本提示的方法。
然而,這種方法僅產生了一張圖像。為了製作短小而連貫的視頻,作為機器人的「體驗」,科學家們將一些圖像魔法和另一種名為「運動中的夢想」的技術結合在一起。該系統計算每一幀之間每個像素的運動,將一張生成的單一圖像變形為短小的多幀視頻。運動中的夢想通過考慮場景的三維幾何形狀和機器人視角的相對變化來實現這一點。
「我們超越了2017年開發的領域隨機化方法,該方法對環境中的物體應用隨機顏色和圖案,至今仍被視為主流方法。」Yu說。「儘管這種技術生成多樣的數據,但缺乏現實感。LucidSim解決了多樣性和現實感問題。令人興奮的是,即使在訓練期間未見過真實世界,機器人仍然能夠識別並在現實環境中導航障礙物。」
團隊特別期待將LucidSim應用於四足運動和跑酷以外的領域,這是他們的主要測試基地。例如,在移動操作中,移動機器人被指派在開放區域處理物體;顏色感知也是至關重要的。「如今,這些機器人仍然需要從現實世界的演示中學習。」Yang說。「雖然收集演示很容易,但將現實世界的機器人遙控設置擴展到數千種技能卻很具挑戰性,因為人類必須實際設置每個場景。我們希望通過將數據收集轉移到虛擬環境中,使這一過程變得更簡單,從而在質量上實現更大的擴展。」
誰是真正的專家?
團隊將LucidSim與另一種方法進行了測試,該方法由專家教師演示技能供機器人學習。結果令人驚訝:由專家訓練的機器人僅成功15%的時間——即使將專家訓練數據增加四倍,結果也幾乎沒有改變。但當機器人通過LucidSim收集自己的訓練數據時,故事發生了巨大的變化。僅僅將數據集的大小加倍,就使成功率上升到88%。「給我們的機器人更多數據會單調地提高其性能——最終,學生會成為專家。」Yang說。
「在機器人學中,模擬到現實轉移的主要挑戰之一是實現模擬環境的視覺現實感。」斯坦福大學電氣工程助理教授Shuran Song說,他並未參與該研究。「LucidSim框架通過使用生成模型創建多樣且高度現實的視覺數據,為任何模擬提供了一個優雅的解決方案。這項工作可能會顯著加速在虛擬環境中訓練的機器人部署到現實世界任務中的進程。」
從劍橋的街頭到機器人研究的最前沿,LucidSim正在為新一代智能、可適應的機器鋪平道路——這些機器學會在我們複雜的世界中導航,而不必親自踏入其中。
Yu和Yang與四位CSAIL的同事共同撰寫了論文:Ran Choi(麻省理工學院機械工程的博士後)、Yajvan Ravan(麻省理工學院EECS的本科生)、John Leonard(麻省理工學院機械工程系的Samuel C. Collins教授)和Phillip Isola(麻省理工學院EECS的副教授)。他們的工作部分得到了Packard Fellowship、Sloan Research Fellowship、海軍研究辦公室、新加坡國防科學技術局、亞馬遜、麻省理工學院林肯實驗室和國家科學基金會人工智能與基本互動研究所的支持。研究人員在11月初的機器人學習會議(CoRL)上展示了他們的工作。
在這項研究中,我們可以看到生成式AI在機器人學中潛在的巨大應用價值。隨著技術的進步,機器人將能夠在更複雜的環境中自我學習,這不僅提高了效率,還降低了人類在訓練過程中的投入。這為未來的機器人應用打開了新的大門,尤其是在危險或難以接觸的環境中,機器人可以獨立完成任務,顯示出更高的靈活性和適應能力。這項研究不僅展示了技術的前景,也挑戰了我們對機器學習和人工智能的傳統認知,未來的機器人可能會在許多領域中成為不可或缺的夥伴。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。