幫助機械人鎖定重要物件
一種新的方法名為Clio,能夠讓機械人快速地繪製場景並識別完成特定任務所需的物件。
由麻省理工學院新聞辦Jennifer Chu撰寫
想像一下,你需要整理一個凌亂的廚房,首先要清理滿是醬包的檯面。如果你的目標是清潔檯面,你可能會將所有醬包一起清理。如果你想先挑出芥末包再扔掉其餘的,你就會根據醬料類型進行更仔細的分類。而如果你特別想找Grey Poupon這個品牌,你需要更小心地搜尋。
麻省理工學院的工程師們開發了一種方法,使機械人能夠做出類似直覺的、與任務相關的決策。
這個團隊的新方法名為Clio,能讓機械人根據當前的任務識別場景中重要的部分。有了Clio,機械人會接收一系列自然語言描述的任務,然後根據這些任務決定需要的細粒度水平來解釋周圍環境,並“記住”場景中與任務相關的部分。
在從雜亂的辦公桌到麻省理工學院校園內五層樓高的建築的實驗中,團隊使用Clio自動在不同的細粒度水平上分割場景,根據自然語言提示指定的任務(如“移動雜誌架”和“取急救箱”),快速識別並繪製場景中與任務相關的部分。
團隊還在四足機械人上實時運行Clio。當機械人在辦公樓中探索時,Clio識別並繪製了與機械人任務相關的場景部分(如在忽略辦公用品堆的同時取回狗玩具),讓機械人能抓取感興趣的物件。
Clio以希臘歷史女神命名,因其能夠識別並記住與給定任務相關的元素。研究人員設想Clio在許多情況和環境中都會有用,比如機械人需要快速勘察並理解其周圍環境以完成特定任務。
“搜索與救援是這項工作的動力,但Clio也可以為家庭機械人和在工廠車間與人類一起工作的機械人提供支持,”麻省理工學院航空航天系副教授、信息與決策系統實驗室(LIDS)首席研究員以及MIT SPARK實驗室主任Luca Carlone說。“這實際上是幫助機械人理解環境以及它需要記住什麼來執行其任務。”
團隊在今天發表於《機械人與自動化信件》期刊的一項研究中詳細介紹了他們的結果。Carlone的合作者包括SPARK實驗室的成員:Dominic Maggio、Yun Chang、Nathan Hughes和Lukas Schmid;以及麻省理工學院林肯實驗室的成員:Matthew Trang、Dan Griffith、Carlyn Dougherty和Eric Cristofalo。
開放領域
計算機視覺和自然語言處理領域的巨大進展使機械人能夠識別周圍的物件。但直到最近,機械人只能在“封閉集”場景中這樣做,這些場景是精心策劃和控制的環境,機械人已經預先訓練好識別有限數量的物件。
近年來,研究人員採取了更“開放”的方法,使機械人能夠在更真實的環境中識別物件。在開放集識別領域,研究人員利用深度學習工具構建神經網絡,這些網絡能處理來自互聯網的數十億張圖像及其相關文本(如朋友在Facebook上發布的一張狗的照片,標題為“見見我的新小狗!”)。
通過數百萬對圖像-文本對,神經網絡學習並識別場景中與某些術語特徵相符的段落,如狗。然後,機械人可以應用該神經網絡在全新的場景中識別狗。
但如何以與特定任務相關的有用方式解析場景仍是一個挑戰。
“典型的方法會選擇某個任意的、固定的細粒度水平來確定如何將場景的段落融合成一個‘物件’,”Maggio說。“然而,所謂‘物件’的細粒度實際上與機械人需要做什麼有關。如果在不考慮任務的情況下固定了這個細粒度,那麼機械人可能會得到一個對其任務沒有用的地圖。”
信息瓶頸
使用Clio,麻省理工學院的團隊旨在使機械人能夠以自動調整到任務需求的細粒度水平來解釋其周圍環境。
例如,給定一個將一疊書移到書架的任務,機械人應該能夠確定整疊書是與任務相關的物件。同樣,如果任務是從其他書中取出綠色書,機械人應該將綠色書區分為單一目標物件,並忽略場景的其餘部分——包括堆中的其他書。
團隊的方法結合了最先進的計算機視覺和大型語言模型,這些模型由神經網絡組成,能在數百萬個開源圖像和語義文本之間建立聯繫。他們還結合了自動將圖像分割成許多小段的映射工具,這些段可以輸入神經網絡,以確定某些段是否在語義上相似。然後,研究人員利用經典信息理論中的一個概念,稱為“信息瓶頸”,用於壓縮大量圖像段,以挑選和存儲在語義上對給定任務最相關的段。
“例如,假設場景中有一堆書,而我的任務只是拿到綠色書。在那種情況下,我們將所有這些有關場景的信息通過這個瓶頸,最終得到代表綠色書的一簇段落,”Maggio解釋說。“所有不相關的段落都會被分組到一個可以簡單刪除的簇中。我們就得到了支持我任務所需的正確細粒度的物件。”
研究人員在不同的現實環境中展示了Clio。
“我們認為一個非常實用的實驗是將Clio運行在我的公寓裡,我事先沒有進行任何清理,”Maggio說。
團隊列出了一系列自然語言任務,如“移動衣物堆”,然後將Clio應用於Maggio凌亂公寓的圖像。在這些情況下,Clio能夠快速分割公寓場景,並通過信息瓶頸算法識別出構成衣物堆的段落。
他們還在波士頓動力公司的四足機械人Spot上運行了Clio。他們給機械人列出了一系列需要完成的任務,當機械人在辦公樓內探索並繪製地圖時,Clio在安裝在Spot上的車載計算機上實時運行,以挑選出映射場景中與給定任務視覺上相關的段落。該方法生成了一個覆蓋地圖,只顯示目標物件,機械人然後使用該地圖接近識別的物件並實際完成任務。
“實時運行Clio對團隊來說是一個重大成就,”Maggio說。“很多先前的工作需要幾個小時才能完成。”
展望未來,團隊計劃使Clio能夠處理更高層次的任務,並基於最近在寫實視覺場景表示方面的進展進行改進。
“我們仍在給Clio一些相對具體的任務,如‘找到一副撲克牌’,”Maggio說。“對於搜索與救援,你需要給它更高層次的任務,如‘找到倖存者’或‘恢復供電’。因此,我們希望達到更接近人類理解的水平,以完成更複雜的任務。”
這項研究部分由美國國家科學基金會、瑞士國家科學基金會、麻省理工學院林肯實驗室、美國海軍研究辦公室和美國陸軍研究實驗室分佈式和協作智能系統與技術協作研究聯盟資助。
評論
這篇文章展示了麻省理工學院在機械人技術和人工智能領域的前沿研究。Clio系統不僅在技術上有重大突破,更重要的是它的應用潛力。這種系統可以應用於救援、家庭服務甚至工業自動化,無疑會提高機械人對環境的理解和應對能力。然而,儘管Clio在實驗中顯示出強大的功能和實時性能,但在實際應用中,依然面臨許多挑戰,如如何應對更複雜和動態的環境、如何進一步提高識別精度等。這些問題需要進一步的研究和實驗來解決。總體來看,Clio的出現標誌著機械人技術的一個重要進步,未來的應用前景廣闊。
以上文章由特價GPT API KEY所產生