提升機器人學習效率的新技術

Ai

訓練多功能機械人的更快、更佳方法

受大型語言模型啟發,研究人員開發了一種訓練技術,可以匯集多元化數據來教授機械人新技能。

在經典動畫《The Jetsons》中,機械女傭Rosie可以無縫地從吸塵轉換到煮飯,再到倒垃圾。但在現實生活中,訓練多功能機械人仍是一大挑戰。

通常,工程師會收集特定於某個機械人和任務的數據,並在受控環境中訓練機械人。然而,收集這些數據既昂貴又耗時,機械人在面對未見過的環境或任務時可能會困難重重。

為了訓練更好的多功能機械人,麻省理工學院的研究人員開發了一種多用途技術,將來自多個來源的龐大異質數據合併成一個系統,能夠教導任何機械人執行廣泛的任務。

他們的方法涉及將來自不同領域的數據,如模擬和真實機械人,以及多種模式,包括視覺傳感器和機械臂位置編碼器,對齊到一個共享的“語言”,使生成式AI模型能夠處理。

透過合併如此龐大的數據,這種方法可以用於訓練機械人執行多種任務,而不需要每次從頭開始訓練。

這種方法可能比傳統技術更快且更便宜,因為它需要的任務特定數據更少。此外,在模擬和現實世界實驗中,它的表現比從頭開始訓練提高了20%以上。

“在機械人學中,人們常說我們沒有足夠的訓練數據。但在我看來,另一個大問題是數據來自太多不同的領域、模式和機械人硬件。我們的工作展示了如何能夠將所有這些數據放在一起訓練機械人。”這項技術的主要作者、電機工程與計算機科學研究生Lirui Wang說。

Wang的合作者包括同為電機工程與計算機科學研究生的Jialiang Zhao;Meta研究科學家Xinlei Chen;以及該技術的資深作者、電機工程與計算機科學副教授、計算機科學與人工智能實驗室成員Kaiming He。這項研究將在神經信息處理系統會議上展示。

受大型語言模型啟發

機械人的“政策”接收來自傳感器的觀察數據,如相機圖像或追踪機械臂速度和位置的本體感測量,然後告訴機械人如何及在哪裡移動。

政策通常通過模仿學習訓練,即由人類演示動作或遙控機械人生成數據,然後將其輸入AI模型學習政策。由於這種方法使用的任務特定數據量少,當環境或任務改變時,機械人往往會失敗。

為了開發更好的方法,Wang和他的合作者受到大型語言模型如GPT-4的啟發。

這些模型通過大量多樣的語言數據預訓練,然後通過少量任務特定數據進行微調。如此多的數據預訓練有助於模型在多種任務中表現良好。

“在語言領域,數據都是句子。機械人學中,考慮到數據的異質性,如果想以類似方式進行預訓練,我們需要不同的架構。”他說。

機械人數據形式多樣,從相機圖像到語言指令再到深度圖。同時,每個機械人在機械上都是獨一無二的,擁有不同數量和方向的手臂、抓手和傳感器。此外,收集數據的環境也差異很大。

麻省理工學院的研究人員開發了一種稱為異質預訓練變壓器(HPT)的新架構,統一了來自這些不同模式和領域的數據。

他們在架構的中間放置了一個稱為變壓器的機器學習模型來處理視覺和本體感受的輸入。變壓器是構成大型語言模型的基礎。

研究人員將來自視覺和本體感受的數據對齊為變壓器可以處理的相同類型的輸入,稱為token。每個輸入都用相同數量的token表示。

然後變壓器將所有輸入映射到一個共享空間,隨著處理和學習更多數據而成長為一個龐大的預訓練模型。變壓器越大,其表現就越好。

用戶只需向HPT提供少量關於機械人設計、設置和想要執行的任務的數據。然後HPT將變壓器在預訓練期間獲得的知識轉移以學習新任務。

實現靈巧動作

開發HPT的最大挑戰之一是構建用於預訓練變壓器的龐大數據集,其中包括52個數據集,涵蓋四類超過20萬個機械人軌跡,包括人類演示視頻和模擬。

研究人員還需要開發一種有效的方法將來自傳感器陣列的原始本體感受信號轉換為變壓器可以處理的數據。

“本體感受是實現許多靈巧動作的關鍵。因為我們架構中的token數量始終相同,我們對本體感受和視覺賦予同樣的重視。”Wang解釋說。

當他們測試HPT時,與每次從頭開始訓練相比,機械人的性能提高了20%以上。即使任務與預訓練數據非常不同,HPT仍然提高了性能。

卡內基梅隆大學機械人學院副教授David Held表示:“這篇論文提供了一種在多種機械人具體化中訓練單一政策的新方法。這使得可以在多樣化的數據集上進行訓練,從而顯著擴大機械人學習方法可以訓練的數據集規模。它還允許模型快速適應新的機械人具體化,這很重要,因為新的機械人設計不斷產生。”

未來,研究人員希望研究數據多樣性如何提升HPT的性能。他們還希望增強HPT,使其能夠像GPT-4和其他大型語言模型一樣處理未標記數據。

“我們的夢想是擁有一個通用的機械人大腦,你可以下載並用於你的機械人而不需任何訓練。雖然我們還處於初期階段,但我們將繼續努力,並希望擴展能夠帶來機械人政策的突破,就像大型語言模型一樣。”他說。

這項工作部分由亞馬遜大波士頓技術計劃和豐田研究所資助。

編輯評論

麻省理工學院的這項研究展示了如何利用異質數據來提升機械人學習的效率和靈活性。這不僅是一種技術上的突破,也為未來機械人應用的普及化提供了新的可能性。隨著不同領域的數據被整合,機械人不再局限於單一任務,而是能夠應對多變的環境和多樣的挑戰。

這種技術的潛力在於,它不僅能提升現有機械人的性能,還能加速新機械人設計的落地和應用。在大型語言模型的啟發下,這種方法充分利用了預訓練模型的優勢,為機械人學習開辟了新的道路。

然而,這也引發了一些值得思考的問題。比如,數據的多樣性和質量如何影響機械人的學習效果?如何確保這些數據不會引入偏見或誤導?這些都是未來需要進一步探討和解決的問題。

總的來說,這項研究不僅為機械人訓練提供了一個新的視角,也為未來的智能系統開發奠定了基礎。隨著技術的不斷進步,我們或許能夠在不久的將來看到更多類似Rosie的機械人融入我們的日常生活。

以上文章由特價GPT API KEY所翻譯。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *