Project Astra: 你需要知道的Google DeepMind計劃的一切
Project Astra是DeepMind——Google的AI部門——最新的人工智能原型,專注於人工通用智能(AGI)。在Google I/O 2024上,Project Astra的演示展示了AI助手未來的突破性技術。雖然展示影片時間短暫,但其效果令人印象深刻,開發者反應積極。
演示中展示了兩個連續的鏡頭,證明Project Astra的回應並非精挑細選,這款原型可以應對多種任務和問題。其中一個鏡頭是在Google Pixel手機上,另一個是在原型眼鏡設備上。Project Astra能夠持續接收音頻和視頻輸入,實時解釋環境中的事物,並以對話方式與用戶互動。
Project Astra的功能是什麼?
Project Astra是一款由AI驅動的通用助手,增強用戶與手機或其他設備的互動。它超越了當前AI助手模型的能力,利用多模態輸入接收語音和視頻。它不斷編碼視頻幀,將其與語音結合,並按事件時間線排序。緩存這些數據提供了高效的回憶和更大的上下文,使對話更加自然。
目標是讓Astra理解現實世界環境的上下文,並對用戶指令作出回應,而不是只針對單一問題。記住周圍的事物和之前的詢問創造了一種自然的互動感。為了讓這種感覺自然,延遲必須低。雖然演示中有明顯的延遲,但其回應仍然智能且迅速。
當你用手機相機展示給Astra看某些東西時,這種表現令人印象深刻。想像一下這在像Google Glass這樣的AR可穿戴設備中的應用。通過記住你所見,Astra可以在你匆忙出門時幫你找到丟失的鑰匙。收集和存儲視覺數據,結合實時多模態分析的力量,看來是AI的下一階段。
多維處理與多模態AI
Project Astra的一個令人印象深刻的突破是其無縫處理多模態輸入的能力。目前的AI通常依賴於一次一種類型的輸入,而Astra則同時整合視覺和聽覺來源的數據,並與周圍環境相結合。這可能消除了需要比對人類給出更詳細描述的需求,因為Astra知道你在看什麼,並能看到你所見。
在演示視頻中,Astra的視覺識別能力尤其突出,但音頻和視頻並不是唯一的輸入。視頻一開始,用戶要求Astra告訴他們一些發出聲音的東西,並用手機相機掃描辦公室環境。當揚聲器監視器進入視野時,Astra識別出它。將相機靠近揚聲器,用戶畫出箭頭指向揚聲器上的兩個圓圈之一,並詢問它的名稱。Astra正確地識別出這部分是高音單元,負責產生高頻聲音。
Astra的記憶能力超越輸入回憶
當他們走過辦公桌時,可以看到桌上有一副眼鏡。他們將相機指向窗外,詢問所在的社區。從有限的數據中,Astra識別出他們的位置。接著,當被問及用戶把眼鏡放在哪裡時,Astra展示了其視覺回憶能力。記住之前看到但未提及的東西,Astra說眼鏡在辦公桌上,並補充說它們靠近一個紅蘋果,讓它們更容易找到。
雖然Astra仍處於原型階段,且手機記憶有限,但Astra的回憶是短期且可能基於會話的。當持久記憶成為可能並更深入整合到AI助手中時,這些記憶功能可以回顧之前的會話。這種可能基於雲的功能可能會帶來高度個性化的AI體驗,Astra將學習你的持續項目、個人偏好和個性。
更多Project Astra的實際應用
Astra的多樣性在展示多種現實世界的援助任務中得到了證明。這些例子創意十足且考慮周到。將相機對準一杯彩色鉛筆,要求Astra提供關於它們的頭韻,這展示了其語言能力。與許多AI回應不同,這次的頭韻在嘗試使用自然語言提示獲得創意輸出時並不差。
詢問Astra辦公室電腦顯示器上顯示的開發者代碼的一部分,得到了正確的回應。用戶隨後切換到眼鏡設備原型,查看白板上的一個似乎是網絡負載平衡(NLD)系統的圖示。他們在服務器和數據庫的圖畫間畫了一條箭頭,詢問如何加快系統速度。基於手繪圖示的視覺輸入,Astra回應添加緩存可以提高速度,這令人印象深刻。
注入一些幽默感,下一步是一幅簡單的兩隻貓臉的畫,其中一隻眼睛上有紅色X。舉起一個帶有問號的小紙箱,Astra被問及這讓它想起什麼。回應是薛定谔的貓,一個由奧地利物理學家Erwin Schrödinger設計的思想實驗,該實驗說明了一個量子悖論,即貓可以同時被認為是死的和活的,因為它的命運取決於一個未來可能不會發生的事件。
演示以一個老虎玩偶和一隻真正的金毛尋回犬並排展示結束。Astra被要求為它們兩個起一個樂隊名字。答案是金色條紋,這與之前的頭韻一樣,是一個不錯的回應。Project Astra的多模態特性增加了其輸出。
雲端處理目前支持Astra的智能
主題演講顯示,Google高度優化的張量處理單元(TPUs)運行Project Astra。Astra不在設備上運行。Google在處理大型語言模型(LLMs)的硬件技術方面處於領先地位。訓練完備的AI模型通常更小。看來Google暗示它最終會在移動設備上運行。
這並不令人驚訝,因為Google的移動SoC TPUs強大,每一代都不僅僅是漸進的改進。然而,我們對這個早期原型的方向知之甚少。如果Astra依賴於雲和不斷的網絡連接,公開發布後可能會引入延遲問題。
AI助手的未來
雖然Project Astra仍處於早期階段,並且人工智能開發正在以驚人的速度推進,但看來Google是首個實現實用AI助手的公司。通過實時處理多種信息來源,它有可能成為移動用戶的日常工具。這項技術可以擴展到智能家居、教育環境和創意項目。
展望未來,Google計劃將Astra的元素整合到其Gemini應用中,可能為我們提供親身體驗的機會。這種向自然和響應式人工智能互動的轉變,以及對現實世界環境的意識,是一個受歡迎的改變。自從其早期作為Bard以來,Google Gemini已經取得了長足的進步。隨著像Project Astra這樣的創新技術,我們很快就能在Android設備上看到其一些功能。
編輯評論
Project Astra展示了AI技術的未來潛力,尤其是在多模態處理和實時環境感知方面。然而,這也引發了一些值得關注的議題。首先,雖然這項技術令人興奮,但其依賴於雲端處理可能帶來隱私和數據安全的挑戰。用戶的個人數據如何被處理和保護將成為關鍵問題。
此外,Astra在實時環境中運行的能力是否能夠在實際應用中保持高效,尤其是在網絡連接不穩定的情況下,仍需進一步驗證。這項技術的廣泛應用需要考慮到不同的用戶需求和環境變量。
最後,Astra的多模態特性和記憶功能為AI助手的未來開闢了新的可能性,但也要求我們重新思考人機互動的倫理和法律框架。這樣的技術如何影響我們的日常生活,並在何種程度上應該被接受,都是值得深思的問題。總體而言,Project Astra代表了一個令人興奮的技術進步,但伴隨著需要謹慎考量的挑戰和機遇。
以上文章由特價GPT API KEY所翻譯