研究人員使用大型語言模型幫助機器人導航
這種方法使用語言為基礎的輸入而不是昂貴的視覺數據來指導機器人完成多步驟的導航任務。
Adam Zewe | MIT News
發布日期:2024年6月12日
將來,你可能希望你的家用機器人能把一堆髒衣服搬到樓下,並把它們放在地庫左邊角落的洗衣機裡。機器人需要結合你的指示和它的視覺觀察來確定完成這項任務的步驟。
對於一個人工智能代理來說,這說起來容易做起來難。目前的方法通常使用多個手工製作的機器學習模型來處理任務的不同部分,這需要大量的人力和專業知識來構建。這些方法使用視覺表示來直接做出導航決策,需要大量的視覺數據來訓練,而這些數據往往難以獲得。
為了解決這些挑戰,麻省理工學院和麻省理工學院-IBM沃森人工智能實驗室的研究人員設計了一種導航方法,將視覺表示轉換為語言片段,然後將其輸入到一個大型語言模型中,該模型完成所有多步驟導航任務的每個部分。
他們的方法不再將機器人周圍環境的圖像中的視覺特徵編碼為視覺表示,這樣做計算量很大,而是創建描述機器人視角的文本標題。大型語言模型使用這些標題來預測機器人應該採取的行動,以完成用戶的語言指令。
由於他們的方法純粹使用語言表示,他們可以使用大型語言模型高效生成大量的合成訓練數據。
儘管這種方法的性能不如使用視覺特徵的方法,但它在缺乏足夠視覺數據的情況下表現良好。研究人員發現,將語言基礎的輸入與視覺信號結合可以提高導航性能。
“通過純粹使用語言作為感知表示,我們的方法更加簡單。因為所有的輸入都可以編碼為語言,我們可以生成一個人類可理解的軌跡,”電氣工程和計算機科學 (EECS) 研究生、該方法論文的主要作者潘博文(Bowen Pan)說。
潘的合著者包括他的導師奧德·奧利瓦(Aude Oliva),她是MIT Schwarzman計算學院戰略產業合作的主任,麻省理工學院-IBM沃森人工智能實驗室的MIT主任,以及計算機科學和人工智能實驗室(CSAIL)的高級研究科學家;菲利普·伊索拉(Philip Isola),EECS副教授,CSAIL成員;高級作者金允(Yoon Kim),EECS助理教授,CSAIL成員;以及其他來自麻省理工學院-IBM沃森人工智能實驗室和達特茅斯學院的研究人員。這項研究將在北美計算語言學協會年會上展示。
用語言解決視覺問題
由於大型語言模型是目前最強大的機器學習模型,研究人員希望將它們納入被稱為視覺與語言導航的複雜任務中,潘說。
但這些模型接受文本輸入,無法處理來自機器人攝像頭的視覺數據。因此,團隊需要找到一種方法來使用語言。
他們的技術利用一個簡單的標題模型來獲得機器人視覺觀察的文本描述。這些標題與語言指令結合,並輸入到一個大型語言模型中,該模型決定機器人下一步應該採取的導航步驟。
大型語言模型輸出機器人完成該步驟後應該看到的場景標題。這被用來更新軌跡歷史,以便機器人能夠跟踪它已經去過的地方。
模型重複這些過程,生成一個一步一步引導機器人到達目標的軌跡。
為了簡化過程,研究人員設計了模板,使觀察信息以標準形式呈現給模型——作為機器人根據其周圍環境可以做出的選擇系列。
例如,一個標題可能會說“左前方30度有一扇門,旁邊有一盆植物,背後是一間小辦公室,裡面有一張桌子和一台電腦”,等等。模型選擇機器人應該朝著門還是辦公室移動。
“最大的挑戰之一是找出如何以適當的方式將這種信息編碼為語言,使代理能夠理解任務是什麼以及他們應該如何應對,”潘說。
語言的優勢
當他們測試這種方法時,儘管其性能不如基於視覺的技術,但他們發現它提供了幾個優勢。
首先,由於文本合成所需的計算資源比複雜的圖像數據少,他們的方法可以用來快速生成合成訓練數據。在一次測試中,他們基於10個真實的視覺軌跡生成了10,000個合成軌跡。
該技術還可以彌合阻止代理在真實世界中表現良好的模擬環境之間的差距。這種差距通常是由於計算機生成的圖像可能與真實世界的場景看起來非常不同,例如光線或顏色。但描述虛擬圖像和真實圖像的語言要難以區分得多,潘說。
此外,他們模型使用的表示對人類來說更容易理解,因為它們是用自然語言寫成的。
“如果代理未能達到目標,我們可以更容易地確定它失敗的原因。也許歷史信息不夠清楚,或者觀察忽略了一些重要細節,”潘說。
此外,由於只使用一種類型的輸入,他們的方法可以更輕鬆地應用於不同的任務和環境。只要數據可以編碼為語言,他們就可以使用相同的模型而不需要做任何修改。
但一個缺點是,他們的方法自然會丟失一些視覺模型捕獲的信息,例如深度信息。
然而,研究人員驚訝地發現,將語言基礎的表示與基於視覺的方法結合可以提高代理的導航能力。
“也許這意味著語言可以捕獲一些純視覺特徵無法捕獲的更高級別的信息,”他說。
這是研究人員希望繼續探索的一個領域。他們還希望開發一個面向導航的標題生成器,以提高方法的性能。此外,他們希望探究大型語言模型展現空間意識的能力,看看這如何有助於語言基礎的導航。
這項研究部分由麻省理工學院-IBM沃森人工智能實驗室資助。
編輯評論
這篇文章展示了語言模型在人工智能領域的一個創新應用,特別是在機器人導航方面。這種方法通過將視覺數據轉換為文本描述並利用大型語言模型來指導機器人,既解決了視覺數據不足的問題,又簡化了模型的複雜性。這種創新方法在計算資源和人機交互方面有很大的潛力,尤其是在訓練數據生成和錯誤診斷方面顯示出優越性。
然而,這種方法仍然存在一些不足之處。比如,語言表示自然會丟失一些視覺模型可以捕捉的重要信息,如深度和細節。這可能會影響機器人在複雜環境中的導航能力。此外,雖然語言模型在合成數據和模擬環境中表現良好,但在真實世界中的應用效果還需要進一步驗證。
總的來說,這篇研究展示了一個有趣的方向,即如何利用語言模型來增強機器人的功能。未來的研究可以進一步探討語言和視覺模型的結合,並探索如何提高這些模型在真實環境中的應用效果。這種跨學科的創新思維無疑將推動人工智能和機器人技術的進一步發展。
以上文章由特價GPT API KEY所翻譯