大型行為模型超越大型語言模型,創造可行可語的AI
在今天的專欄中,我將深入探討快速崛起的大型行為模型(LBMs),這些模型正成為創造運行機器人及機器系統的AI的首選。或許你對LBMs不太熟悉,沒關係,我會解釋LBM是什麼,並指出它們如何利用大型語言模型(LLMs)和當代生成AI。
總的來說,大型行為模型是一種相當有前途的創新組合,這些模型是基於LLMs並增加了行為導向的專業能力。可以說,這是一個真正的美味佳餚。
讓我們開始探討這個話題。
如何學習新技能
在我們深入AI的部分之前,讓我們先看看人類如何學習新技能的關鍵方式。
前幾天,我想提高我的烹飪技能,於是我觀察了我兒子——他遠比我會做飯——準備一道新菜。這道菜對他來說也是新的,但他依靠自己對其他類似菜式的知識順利完成了。就像人們常說的,成品才是最好的證明,最後做出來的菜真是美味。
那我從他的烹飪中學到了什麼呢?
你可以說我專注於觀察他的烹飪行為。
我觀察到他小心選擇所需的烹飪工具,對食材準備的細節十分講究,熟練地使用爐具和空氣炸鍋等設備。我注意到他放入各種香料,適時攪拌,並密切關注食物的溫度和熟成情況。
我在過程中也問了他很多問題。順便一提,我必須感謝他的耐心,因為在嘗試做一道新菜時,還要被人問東問西,實在是讓人感到厭煩。請給他頒發年度最佳兒子獎,謝謝。
總之,通過觀察和提問,我學會了如何烹飪這道菜,並毫無疑問地獲得了更廣泛的烹飪見解。值得注意的是,我並沒有閱讀書籍或專門研究這個主題,而是使用了一種互動的觀察技術來獲得新技能並提升我的現有能力。
我相信你在生活的各個方面也有過類似的經歷,比如學習駕駛、粉刷房子、使用電子表格、打球等等。或許我們可以利用同樣的互動觀察技術來推進AI的發展。這聽起來很有道理,我們來看看具體怎麼做。
訓練AI以技能超越單一語言
首先,我們來談談大型語言模型和生成AI。
數以億計的人每天都在使用生成AI應用,例如OpenAI的熱門ChatGPT,以及其他知名的AI產品如GPT-4、Anthropic Claude、Google Gemini、Meta Llama等。這些生成AI應用基於大型語言模型。簡單來說,LLM是圍繞自然語言(如英語)構建的。AI經過大量數據訓練,通過掃描互聯網上的文章、敘述、詩歌等進行模式匹配,形成對人類語言的模型。
這些模型的規模龐大,使得它們能夠在計算流暢性上表現出色,並能驚人地模仿人類的寫作風格。用戶可以輸入提示並向AI提問,而AI的回答有時幾乎無法區分是真人寫的還是AI生成的。
使用生成AI和LLMs的一種方式是以自然語言進行互動。你提出問題,AI給出書面回答。我們逐步在改善AI,使得用戶可以用語音與AI交流,獲得語音回答,這與Siri和Alexa多年前的功能類似,但流暢度更高。
然而,這裡有一個缺失的成分,即我們尚未深入探索行為的領域。我們可以充分利用行為的巨大價值,包括行為觀察和相關的提問。
行為的秘密武器
那麼,問題來了。
假設我在廚房裡設置了一個烹飪機器人(其實我在我的AI實驗室裡就有這樣一個,但不是在家裡)。這個機器人有一個攝像頭,可以視覺上檢測到我和廚房中的其他物品。我可以觀察AI,AI也可以觀察我。此時,AI正在使用生成AI或LLM進行運行。這樣的設置的美妙之處在於,AI可以通過觀察我來學習任務,並且可以向我提問,而我也可能通過觀察AI的行為來學習。
請注意,自然語言並不是唯一的學習元素,觀察也是至關重要的。由於我們在這個設置中有一個LLM,這使得計算流暢性成為可能。更重要的是,觀察的角色大大提升了學習的深度。
這類AI的有趣名稱是大型行為模型。這是一個合乎邏輯的名稱。AI在大小和建模上與LLM相似,而它的獨特之處在於能夠進行觀察和被觀察,並通過行為進行訓練和進步。
值得一提的是,LBMs的定義和概念仍在不斷討論中。一些AI研究者提到LBMs,但他們的定義可能與我描述的有所不同。這沒關係,只需知道LBMs的領域仍在變化,並且各種研究工作正在進行中。進展正在發生,未來將會有更清晰的LBM標準定義。
與LBM的烹飪示範對話
一段與LBM互動的示範對話或許能幫助我們理解事情的進展。
如前所述,我對烹飪有些興趣,雖然不算精通,但你明白我的意思。讓我們繼續這個烹飪主題,看看LBM能做些什麼。請記住,這類對話也可以發生在其他領域,比如修理汽車引擎、清潔窗戶、保護院子等等。
我啟動了我的烹飪機器人,選擇讓AI為我準備一頓飯。是的,某種程度上,我的兒子被機器人取代了,但只有在他出門的時候。為了明確,我的兒子仍然是我的兒子,無論如何,沒有任何機器人能取代這一點。
好了,我們開始吧。
我的輸入提示:“讓我們準備一份炒菜。你能幫我切菜嗎?”
LBM生成的回應:“可以。我已經觀察到你過去的切菜風格。這次你想要粗切還是細切?”
我的輸入提示:“請粗切。”
LBM生成的回應:“明白了。我會先從胡蘿蔔開始。根據我的多模態數據,我估計它們應該切成約1/2英寸厚,以符合你平時的口感偏好。這樣可以嗎?”
我的輸入提示:“很好,讓我們對西葫蘆和甜椒也保持一致。”
LBM生成的回應:“好的!我會調整我的壓力和速度以匹配每種蔬菜的密度。在我切菜的同時,我會加熱炒鍋。鍋子預熱至中高溫。你想現在加油還是等蔬菜切好再加?”
我的輸入提示:“現在加油,謝謝。”
LBM生成的回應:“正在添加油。我從我們的過去會話中學到了,你喜歡蔬菜稍微煎一下。我會保持穩定的火力,並在鍋子達到最佳溫度時告訴你。我會持續從我們的會話中學習,改進我的技術,更好地協助你。”
對話還可以繼續很久,但以上摘錄已經足夠展示一些關於LBM的關鍵點。
LBMs的顯著特徵
現在讓我們分析一下剛才發生了什麼。
我想你很快就會認出這段對話的互動性是典型的生成AI和LLMs的交流模式。討論過程輕鬆自然,我不需要指定精確的命令或使用特別的術語。
AI和我使用的是日常自然語言。
我強調這一點是因為,機器人編程歷史上通常需要使用神秘的編碼和專業的計算機編程技能。軟件工程師需要費力地編寫多行代碼來編程機器人。這樣的機器人能力有限,通常只能對一組有限的詞語或命令做出反應。
幸運的是,我們逐步將生成AI與機器人連接,這使機器人的編程變得簡單多了。但這並不是無代價的,還有許多潛在的問題和挑戰。
我們正在逐步讓生成AI有能力在現實世界中實現物理行動。
這既令人興奮又令人不安。
想像一下,一個在你院子裡巡邏的機器人作為保護犬,因為生成AI出現了所謂的AI幻覺而出錯,各種錯誤和AI相關問題可能隨之而來。我並不是說我們應該避免將生成AI與機器人連接。這是未來的趨勢,無法阻止。但我強調的是,我們需要謹慎地進行這一過程,並考慮倫理和法律的影響。
再者,互動中還涉及到多模態數據。你或許正在使用基於單一數據模式的生成AI,只是通過文本與AI進行對話。或者你可能在使用一個圖像生成器,根據文本為你生成精美的圖片。我一直在強調,我們正逐步走向多模態生成AI。這包括文本到文本、文本到圖像、圖像到文本、文本到音頻、音頻到文本、文本到視頻、視頻到文本等多種內容的整合。
在LBMs中,AI通常是以多模態的方式進行數據訓練的。這與許多傳統的生成AI形成對比,後者通常只在一到兩種數據模式上進行訓練。即使它們使用多種數據模式,通常也是以分開的方式,而不是完全整合的方式。LBMs的優勢在於以良好整合的多模態數據進行訓練,這有點像AI自駕車和多傳感器數據融合(MSDF)。
行為是首要考量
在我與烹飪機器人的互動中,你可能隱約發現AI不斷提到我在烹飪過程中的行為觀察。例如,AI已經觀察到我的切菜風格,並根據我的偏好進行數據訓練。
LBM然後詢問我這次是否想讓AI模仿我的粗切風格或細切風格。總之,關鍵在於,LBM能夠根據觀察來模仿我的烹飪方式。我並沒有明確指示或教導LBM如何切菜,而是通過我的切菜行為展示了這一點。這是基於行為和觀察的學習。
這表明LBMs旨在超越自然語言的方式,還涵蓋了行為。
哇,想想這些可能性。
我不想讓人感到沮喪,但這既有好的一面,也有棘手的一面。
假設AI觀察到我切菜的過程中不小心掉了刀,這會不會導致AI學習到每次切菜時刀都應該掉落?這是計算模仿可能出現的真實情況。
我懷疑任何成年人會犯這樣的模仿錯誤。為什麼?部分原因是常識。令人擔憂的是,我們目前尚未擁有能夠體現常識的AI,而我們卻將AI連接到在現實世界中移動的機器人。暫時而言,其他編程和數據訓練的安全措施需要在這方面提供保障。
LBM的興趣和進展迅速擴展
還有幾點補充,然後我會簡單總結一下。
一個最初使LBM受到關注的AI研究項目名為“TRI的機器人如何在一個下午學習新的操作技能”,由Siyuan Feng、Ben Burchfiel、Toffee Albina和Russ Tedrake於2023年9月14日發表,提出了幾個重要觀點(摘錄):
“絕大多數現實世界的任務可以用多種不同的方式解決。例如,提起一個杯子時,人可以從上面、側面或甚至底部抓取。這種現象——行為多模態性——在歷史上對行為學習方法來說非常困難,儘管它在正常人類行為中無處不在。”
“目前,機器人被一絲不苟地編程以完成任務,人類需要明確預測邊緣情況並指導機器人如何從錯誤中恢復。”
“這無法擴展到未來更具能力的機器人在野外運行所需的複雜性。”
“現有的大型語言模型擁有以新穎方式組合概念和從單一示例中學習的強大能力。下一個重要的里程碑是創建同樣強大的大型行為模型,將這種語義能力與高水平的物理智能和創造力融合。”
“這些模型將對能夠豐富地與周圍世界互動並在需要時自發創造新的靈活行為的通用機器人至關重要。”
LBMs的出現仍在強勁推進,並日益受到關注。
在這個新興領域中充滿了機會。大型行為模型仍然處於初期階段,未來的增長將是巨大的。不過,我們首先需要解決許多問題和挑戰。
我強烈建議尋求重大挑戰的AI研究者仔細考慮LBMs。我們如何確保AI能夠正確識別行為?有什麼措施可以防止行為的模仿錯誤?是否需要一些安全措施,既能防止災難發生,又不會過度約束LBM的能力?我們是否需要新的AI相關法律來適當地治理大型行為模型的設計、開發、使用?
從技術的角度來看,適應性是LBMs未來的一個關鍵詞。
說到適應性,你或許知道查爾斯·達爾文的名言:“生存的最重要因素既不是智力,也不是力量,而是適應性。”讓AI,尤其是LBMs具備適應性至關重要。我們要做到這一點,必須謹慎、仔細且有信心。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。