
強化學習使Spot的跑步速度增加三倍
機器人與人工智能研究所正在教導機器狗奔跑和自行車跳躍
大約一年前,波士頓動力公司發布了一個研究版本的Spot四足機器人,這款機器人配備了一個低級應用程式介面(API),允許直接控制Spot的關節。當時就有傳聞稱,這個API解鎖了Spot的一些顯著性能提升,包括更快的跑步速度。這個傳聞來自於機器人與人工智能(RAI)研究所,該所之前名為AI研究所,以及波士頓動力AI研究所。如果你參加了去年秋天在鹿特丹舉行的ICRA@40會議上的Marc Raibert演講,你就已經知道這並不是傳聞。
今天,我們能分享RAI研究所的工作,該所已經應用現實基礎的強化學習技術,使Spot的性能得到了顯著提升。同樣的技術也可以幫助高度動態的機器人穩定運作,而一個全新的硬件平台正好展示了這一點:一輛能跳躍的自動自行車。
看Spot奔跑
這段視頻展示了Spot以每秒5.2米(每小時11.6英里)的速度持續奔跑。出廠時,Spot的最高速度為每秒1.6米,這意味著RAI的Spot速度比出廠時快了三倍多。
如果Spot這樣快速奔跑看起來有點奇怪,那是因為這確實很奇怪,因為這隻機器狗的腿和身體運動方式與真實的狗並不相似。RAI研究所的機器人專家Farbod Farshidian解釋說:“這種步態不是生物性的,但這個機器人也不是生物的。Spot的驅動器與肌肉不同,其運動學也不同,因此適合狗快速奔跑的步態不一定適合這隻機器人。”
Farshidian所能描述的Spot的運動方式,類似於小跑步態,但增加了一個飛行階段(四隻腳同時離地),技術上使其變成了奔跑。Farshidian表示,這個飛行階段是必要的,因為機器人需要這段時間快速地將腳向前拉,以保持速度。這是一種“被發現的行為”,因為機器人並不是被明確編程為“跑步”,而是被要求找到最快的運動方式。
強化學習與模型預測控制的對比
當你從波士頓動力公司購買Spot時,隨機附帶的控制器是基於模型預測控制(MPC),這涉及創建一個盡可能準確地近似機器人動態的軟件模型,然後即時解決優化問題,以完成你希望機器人執行的任務。這是一種非常可預測和可靠的控制機器人的方法,但也有點僵化,因為原始的軟件模型不夠接近現實,無法真正推動機器人的極限。如果你試圖說:“好吧,我只是要製作一個超詳細的機器人軟件模型,然後這樣推進極限,”你會遇到困難,因為優化問題必須即時解決,而模型越複雜,快速解決問題的難度就越高。相比之下,強化學習(RL)則是離線學習。你可以使用任意複雜的模型,然後花時間在模擬中訓練控制策略,這樣就可以在機器人上高效運行。
在模擬中,可以同時訓練幾隻Spot(或者數百隻Spot),以獲得穩健的實際性能。
以Spot的最高速度為例,實際上無法在實時運行的基於模型的控制系統中對所有機器人的驅動器進行每一個細節的建模。因此,相反地,通常會對驅動器實際執行的操作做出簡化(通常是非常保守)的假設,以期望安全可靠的性能。
Farshidian解釋說,這些假設使得開發對性能限制的有用理解變得困難。“許多機器人專家知道,快速奔跑的限制之一是會達到驅動系統的扭矩和速度極限。因此,人們試圖使用驅動器的數據手冊來建模。但我們想要回答的問題是,是否存在其他現象實際上限制了性能。”
尋找這些其他現象的過程中,RAI研究所將新的數據納入強化學習流程中,例如從機器人實際性能中學到的詳細驅動器模型。在Spot的情況下,這提供了高速度奔跑的答案。結果發現,Spot速度的限制並不是驅動器本身,也不是機器人的運動學,而是電池無法提供足夠的能量。“這讓我感到驚訝,”Farshidian說,“因為我原以為我們會先遇到驅動器的限制。”
Spot的電力系統複雜到足以有額外的調整空間,Farshidian表示,阻止他們將Spot的最高速度提高到5.2米每秒的唯一原因是他們無法獲取電池電壓,因此無法將這些現實世界的數據納入他們的RL模型。“如果我們有更強的電池,我們可以跑得更快。如果在模擬器中對這一現象進行建模,我相信我們可以將速度推得更遠。”
Farshidian強調,RAI的技術遠不止於讓Spot跑得快——它還可以應用於提高Spot的運動效率,以延長電池壽命,或者讓Spot在辦公室或家庭環境中更安靜地工作。實際上,這是一種可普遍應用的工具,可以找到擴展任何機器人系統能力的新方法。當現實世界的數據用於改進模擬機器人時,可以要求模擬執行更多任務,並且有信心這些模擬技能能成功轉化回真實機器人。
超移動車輛:教機器自行車跳躍
強化學習不僅適合最大化機器人的性能——它還可以使這種性能更加可靠。RAI研究所正在實驗一種全新的機器人,這是一種他們自行發明的小型跳躍自行車,稱為超移動車輛(UMV),它使用與Spot的高速奔跑相同的強化學習流程進行平衡和駕駛訓練。
UMV沒有獨立的物理穩定系統(如陀螺儀)來防止其倒下;它只是一輛普通的自行車,可以前後移動並轉動前輪。然後盡可能多地將質量集中在上部,這樣驅動器就可以快速上下加速。“我們在這段視頻中展示了兩件事,”RAI研究所蘇黎世辦公室主任Marco Hutter表示。“一是強化學習如何幫助UMV在不同情況下的駕駛能力非常穩健;二是理解機器人的動態能力使我們能做一些新事物,比如跳上比機器人本身高的桌子。”
“Hutter說,強化學習的關鍵在於發現新行為,並在難以建模的條件下使其穩定可靠。這正是強化學習真正發揮效用之處。”
儘管跳躍的表現令人印象深刻,但對Hutter來說,像倒退這類看似簡單的動作同樣困難(如果不是更困難的話)。“向後行駛是非常不穩定的,”Hutter解釋道。“至少對我們來說,使用傳統的[MPC]控制器在崎嶇地形或有干擾的情況下實現這一點實際上是不可能的。”
將這台機器人帶出實驗室,並在地形上進行真正的自行車跑酷仍在進行中,RAI研究所表示他們將在不久的將來展示這一點,但這不僅僅是這一特定硬件平台能做什麼——而是任何機器人通過強化學習和其他基於學習的方法能做什麼,Hutter說。“更大的圖景是,這類機器系統的硬件理論上可以做的事情遠遠超過我們用傳統控制算法所能實現的。理解這些硬件系統中的隱藏極限使我們能夠提高性能,並不斷推進控制的邊界。”
強化學習適用於各類機器人
就在幾周前,RAI研究所宣布與波士頓動力公司建立新的合作夥伴關係,目的是通過強化學習推進類人機器人的發展。類人機器人只是另一種機器人平台,儘管這是一種複雜得多的機器人,具有更多的自由度和需要建模與模擬的內容。但是,考慮到模型預測控制對於這種複雜程度的局限性,強化學習方法似乎幾乎是必然的,尤其是在這種方法已經因其概括能力而簡化的情況下。
Hutter說:“我們作為一個研究所的一個雄心是擁有跨越各種不同平台的解決方案。這是關於構建工具、構建基礎設施,為在更廣泛的環境中進行這一工作的基礎。因此,不僅是類人機器人,還有駕駛汽車、四足機器人等等。但是,進行強化學習研究並展示一些漂亮的概念證明是一回事——在現實世界中推進其在各種條件下的應用,同時推動性能的邊界則是另一回事。”
將技能轉移到現實世界一直是機器人在模擬中訓練的挑戰,正因為模擬對機器人非常友好。“如果你花足夠的時間,”Farshidian解釋,“你可以得出一個獎勵函數,最終機器人會做你想要的事情。經常失敗的是當你想將模擬行為轉移到硬件上,因為強化學習非常擅長發現模擬器中的漏洞並利用它們來完成任務。”
隨著新工具、更加準確的動態模型以及大量計算能力的投入,模擬技術已經大幅提升。“我們能模擬如此多的事物,並幾乎免費生成如此多的數據,這是一種強大的能力,”Hutter說。但這些數據的有用性在於與現實的連接,確保你所模擬的內容足夠準確,強化學習方法才能真正解決現實問題。Hutter相信,將從真實硬件收集的物理數據帶回模擬是一種非常有前景的方法,無論是應用於奔跑的四足機器人、跳躍的自行車還是類人機器人。“我假設,模擬和現實的結合,這就是正確的方向。”
這篇文章展示了強化學習在機器人技術中的革命性潛力,並引發了對未來機器人發展的深思。隨著這些技術的進步,我們不禁要問:未來的機器人將能執行哪些更複雜的任務?這些進步是否會改變我們與機器人的互動方式?隨著強化學習的應用範圍不斷擴大,我們或許能期待一個更加智能和靈活的機器人時代。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。