「Project Astra：未來智能助手的突破」

zero comment

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

Project Astra: 你需要知道的Google DeepMind計劃的一切

Project Astra是DeepMind——Google的AI部門——最新的人工智能原型，專注於人工通用智能（AGI）。在Google I/O 2024上，Project Astra的演示展示了AI助手未來的突破性技術。雖然展示影片時間短暫，但其效果令人印象深刻，開發者反應積極。

演示中展示了兩個連續的鏡頭，證明Project Astra的回應並非精挑細選，這款原型可以應對多種任務和問題。其中一個鏡頭是在Google Pixel手機上，另一個是在原型眼鏡設備上。Project Astra能夠持續接收音頻和視頻輸入，實時解釋環境中的事物，並以對話方式與用戶互動。

Project Astra的功能是什麼？

Project Astra是一款由AI驅動的通用助手，增強用戶與手機或其他設備的互動。它超越了當前AI助手模型的能力，利用多模態輸入接收語音和視頻。它不斷編碼視頻幀，將其與語音結合，並按事件時間線排序。緩存這些數據提供了高效的回憶和更大的上下文，使對話更加自然。

目標是讓Astra理解現實世界環境的上下文，並對用戶指令作出回應，而不是只針對單一問題。記住周圍的事物和之前的詢問創造了一種自然的互動感。為了讓這種感覺自然，延遲必須低。雖然演示中有明顯的延遲，但其回應仍然智能且迅速。

當你用手機相機展示給Astra看某些東西時，這種表現令人印象深刻。想像一下這在像Google Glass這樣的AR可穿戴設備中的應用。通過記住你所見，Astra可以在你匆忙出門時幫你找到丟失的鑰匙。收集和存儲視覺數據，結合實時多模態分析的力量，看來是AI的下一階段。

多維處理與多模態AI

Project Astra的一個令人印象深刻的突破是其無縫處理多模態輸入的能力。目前的AI通常依賴於一次一種類型的輸入，而Astra則同時整合視覺和聽覺來源的數據，並與周圍環境相結合。這可能消除了需要比對人類給出更詳細描述的需求，因為Astra知道你在看什麼，並能看到你所見。

在演示視頻中，Astra的視覺識別能力尤其突出，但音頻和視頻並不是唯一的輸入。視頻一開始，用戶要求Astra告訴他們一些發出聲音的東西，並用手機相機掃描辦公室環境。當揚聲器監視器進入視野時，Astra識別出它。將相機靠近揚聲器，用戶畫出箭頭指向揚聲器上的兩個圓圈之一，並詢問它的名稱。Astra正確地識別出這部分是高音單元，負責產生高頻聲音。

Astra的記憶能力超越輸入回憶

當他們走過辦公桌時，可以看到桌上有一副眼鏡。他們將相機指向窗外，詢問所在的社區。從有限的數據中，Astra識別出他們的位置。接著，當被問及用戶把眼鏡放在哪裡時，Astra展示了其視覺回憶能力。記住之前看到但未提及的東西，Astra說眼鏡在辦公桌上，並補充說它們靠近一個紅蘋果，讓它們更容易找到。

雖然Astra仍處於原型階段，且手機記憶有限，但Astra的回憶是短期且可能基於會話的。當持久記憶成為可能並更深入整合到AI助手中時，這些記憶功能可以回顧之前的會話。這種可能基於雲的功能可能會帶來高度個性化的AI體驗，Astra將學習你的持續項目、個人偏好和個性。

更多Project Astra的實際應用

Astra的多樣性在展示多種現實世界的援助任務中得到了證明。這些例子創意十足且考慮周到。將相機對準一杯彩色鉛筆，要求Astra提供關於它們的頭韻，這展示了其語言能力。與許多AI回應不同，這次的頭韻在嘗試使用自然語言提示獲得創意輸出時並不差。

詢問Astra辦公室電腦顯示器上顯示的開發者代碼的一部分，得到了正確的回應。用戶隨後切換到眼鏡設備原型，查看白板上的一個似乎是網絡負載平衡（NLD）系統的圖示。他們在服務器和數據庫的圖畫間畫了一條箭頭，詢問如何加快系統速度。基於手繪圖示的視覺輸入，Astra回應添加緩存可以提高速度，這令人印象深刻。

注入一些幽默感，下一步是一幅簡單的兩隻貓臉的畫，其中一隻眼睛上有紅色X。舉起一個帶有問號的小紙箱，Astra被問及這讓它想起什麼。回應是薛定谔的貓，一個由奧地利物理學家Erwin Schrödinger設計的思想實驗，該實驗說明了一個量子悖論，即貓可以同時被認為是死的和活的，因為它的命運取決於一個未來可能不會發生的事件。

演示以一個老虎玩偶和一隻真正的金毛尋回犬並排展示結束。Astra被要求為它們兩個起一個樂隊名字。答案是金色條紋，這與之前的頭韻一樣，是一個不錯的回應。Project Astra的多模態特性增加了其輸出。

雲端處理目前支持Astra的智能

主題演講顯示，Google高度優化的張量處理單元（TPUs）運行Project Astra。Astra不在設備上運行。Google在處理大型語言模型（LLMs）的硬件技術方面處於領先地位。訓練完備的AI模型通常更小。看來Google暗示它最終會在移動設備上運行。

這並不令人驚訝，因為Google的移動SoC TPUs強大，每一代都不僅僅是漸進的改進。然而，我們對這個早期原型的方向知之甚少。如果Astra依賴於雲和不斷的網絡連接，公開發布後可能會引入延遲問題。

AI助手的未來

雖然Project Astra仍處於早期階段，並且人工智能開發正在以驚人的速度推進，但看來Google是首個實現實用AI助手的公司。通過實時處理多種信息來源，它有可能成為移動用戶的日常工具。這項技術可以擴展到智能家居、教育環境和創意項目。

展望未來，Google計劃將Astra的元素整合到其Gemini應用中，可能為我們提供親身體驗的機會。這種向自然和響應式人工智能互動的轉變，以及對現實世界環境的意識，是一個受歡迎的改變。自從其早期作為Bard以來，Google Gemini已經取得了長足的進步。隨著像Project Astra這樣的創新技術，我們很快就能在Android設備上看到其一些功能。

編輯評論

Project Astra展示了AI技術的未來潛力，尤其是在多模態處理和實時環境感知方面。然而，這也引發了一些值得關注的議題。首先，雖然這項技術令人興奮，但其依賴於雲端處理可能帶來隱私和數據安全的挑戰。用戶的個人數據如何被處理和保護將成為關鍵問題。

此外，Astra在實時環境中運行的能力是否能夠在實際應用中保持高效，尤其是在網絡連接不穩定的情況下，仍需進一步驗證。這項技術的廣泛應用需要考慮到不同的用戶需求和環境變量。

最後，Astra的多模態特性和記憶功能為AI助手的未來開闢了新的可能性，但也要求我們重新思考人機互動的倫理和法律框架。這樣的技術如何影響我們的日常生活，並在何種程度上應該被接受，都是值得深思的問題。總體而言，Project Astra代表了一個令人興奮的技術進步，但伴隨著需要謹慎考量的挑戰和機遇。

以上文章由特價GPT API KEY所翻譯