AI世界模型:未來智能的關鍵!

Ai

AI「世界模型」是什麼?為什麼它們如此重要?

世界模型,亦被稱為世界模擬器,正在被一些人視為人工智能領域的下一個重大突破。

人工智能先驅李飛飛的世界實驗室(World Labs)已籌集到2.3億美元,用於構建「大型世界模型」,而DeepMind則聘請了OpenAI視頻生成器Sora的創建者之一,來開發「世界模擬器」。但這些東西究竟是什麼?

世界模型的靈感來自於人類自然發展的世界心理模型。我們的腦部能夠將來自感官的抽象表徵轉化為對周圍世界的具體理解,這種過程早於人工智能使用「模型」這個詞。基於這些模型,我們的腦部所做的預測影響我們的世界觀。

AI研究人員David Ha和Jürgen Schmidhuber在一篇論文中舉了棒球擊球手的例子。擊球手需要在毫秒內決定如何揮棒——這個時間甚至比視覺信號到達大腦的時間還要短。他們能夠擊中每小時100英里的快球,是因為他們本能地預測球的運動方向。

這對專業球員來說,這一切都是潛意識中發生的。研究者們指出,他們的肌肉會在正確的時間和地點反射性地揮棒,根據他們內部模型的預測迅速行動,而不需要有意識地推演未來的情境。

這種潛意識推理的特性被認為是人類水平智能的先決條件。

建模世界

儘管這一概念已存在數十年,但世界模型最近因其在生成視頻領域的應用前景而受到關注。

大多數AI生成的視頻都會進入「怪異谷」的領域。看久了會發現一些怪異現象,比如四肢扭曲和交融在一起。

雖然一個基於多年視頻訓練的生成模型可能能準確預測籃球的彈跳,但它實際上並不理解這背後的原因,就像語言模型不真正理解單詞和短語背後的概念一樣。然而,一個對為何籃球會這樣彈跳有基本理解的世界模型,將能更好地展示籃球的運動。

為了實現這種洞察,世界模型需要在多種數據上進行訓練,包括照片、音頻、視頻和文本,目的是創建對世界運作的內部表徵,以及推理行動後果的能力。

前Snap AI首席官Alex Mashrabov表示:「觀眾期望他們所觀看的世界以與現實相似的方式運行。如果一根羽毛以鐵砧的重量掉下,或者一個保齡球向上飛起幾百英尺,這會讓觀眾感到震驚並脫離當前情境。有了強大的世界模型,創作者不需要定義每個物體的運動方式,因為這樣的工作既繁瑣又耗時,模型本身將能理解這些。」

然而,更好的視頻生成僅僅是世界模型的冰山一角。包括Meta首席AI科學家Yann LeCun在內的研究人員表示,這些模型將來可能會用於數字和物理領域的複雜預測和規劃。

LeCun在今年早些時候的一次演講中描述了如何通過推理來達成目標。擁有基本「世界」表徵的模型(例如,一段骯髒房間的視頻),給定一個目標(整潔的房間),可以提出一系列行動來實現該目標(如部署吸塵器清掃、洗碗、清理垃圾),這不是因為它觀察到的模式,而是因為它在更深層次上了解如何從骯髒變為整潔。

LeCun表示:「我們需要能理解世界的機器;那些能記住事物、擁有直覺和常識的機器——能夠推理和計劃到達人類水平的機器。儘管你可能聽到一些熱情洋溢的人所說的,當前的AI系統並不具備這些能力。」

雖然LeCun估計我們距離他所設想的世界模型至少還有十年的時間,但當前的世界模型在基礎物理模擬方面已顯示出潛力。

高門檻

儘管這一概念引人入勝,但許多技術挑戰仍然阻礙著其發展。

訓練和運行世界模型所需的計算能力甚至比當前生成模型使用的還要龐大。雖然一些最新的語言模型可以在現代智能手機上運行,但Sora(可謂早期的世界模型)在訓練和運行時則需要數千個GPU,尤其是在其使用變得普遍的情況下。

像所有AI模型一樣,世界模型也會出現幻覺,並內化其訓練數據中的偏見。例如,一個主要基於歐洲城市陽光明媚天氣視頻訓練的世界模型,可能在理解或描繪韓國城市的雪天條件時遇到困難,甚至會出現錯誤。

Mashrabov表示,訓練數據的普遍缺乏可能會加劇這些問題。

他表示:「我們已經看到模型在生成某一類型或種族的人時非常受限。世界模型的訓練數據必須足夠廣泛,以涵蓋多樣的情境,但也必須高度具體,以便AI能夠深入理解這些情境的細微差別。」

在最近的一篇文章中,AI初創公司Runway的CEO Cristóbal Valenzuela表示,數據和工程問題阻礙了當前模型準確捕捉世界居民(例如人類和動物)的行為。「模型需要生成一致的環境地圖,」他說,「以及在這些環境中導航和互動的能力。」

如果所有主要障礙都能克服,Mashrabov相信世界模型能夠「更穩健地」將AI與現實世界連接起來,導致不僅在虛擬世界生成方面的突破,還有機器人技術和AI決策的進展。

這些模型還可能催生出更具能力的機器人。

當前的機器人在其能力上受到限制,因為它們對周圍世界(或自身身體)缺乏認知。Mashrabov表示,世界模型可以賦予它們這種認知——至少在某種程度上。

他說:「擁有先進的世界模型,AI可以在所處的任何情境中發展出個人理解,並開始推理出可能的解決方案。」

這一領域的發展不僅能夠提升AI的能力,還可能改變我們與技術的互動方式,讓未來的機器人更加智能化及自我反思。這是值得我們持續關注的科技前沿。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *