「Project Astra:未來智能助手的突破」

Ai

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

Project Astra: 你需要知道的Google DeepMind計劃的一切

Project Astra是DeepMind——Google的AI部門——最新的人工智能原型,專注於人工通用智能(AGI)。在Google I/O 2024上,Project Astra的演示展示了AI助手未來的突破性技術。雖然展示影片時間短暫,但其效果令人印象深刻,開發者反應積極。

演示中展示了兩個連續的鏡頭,證明Project Astra的回應並非精挑細選,這款原型可以應對多種任務和問題。其中一個鏡頭是在Google Pixel手機上,另一個是在原型眼鏡設備上。Project Astra能夠持續接收音頻和視頻輸入,實時解釋環境中的事物,並以對話方式與用戶互動。

Project Astra的功能是什麼?

Project Astra是一款由AI驅動的通用助手,增強用戶與手機或其他設備的互動。它超越了當前AI助手模型的能力,利用多模態輸入接收語音和視頻。它不斷編碼視頻幀,將其與語音結合,並按事件時間線排序。緩存這些數據提供了高效的回憶和更大的上下文,使對話更加自然。

目標是讓Astra理解現實世界環境的上下文,並對用戶指令作出回應,而不是只針對單一問題。記住周圍的事物和之前的詢問創造了一種自然的互動感。為了讓這種感覺自然,延遲必須低。雖然演示中有明顯的延遲,但其回應仍然智能且迅速。

當你用手機相機展示給Astra看某些東西時,這種表現令人印象深刻。想像一下這在像Google Glass這樣的AR可穿戴設備中的應用。通過記住你所見,Astra可以在你匆忙出門時幫你找到丟失的鑰匙。收集和存儲視覺數據,結合實時多模態分析的力量,看來是AI的下一階段。

多維處理與多模態AI

Project Astra的一個令人印象深刻的突破是其無縫處理多模態輸入的能力。目前的AI通常依賴於一次一種類型的輸入,而Astra則同時整合視覺和聽覺來源的數據,並與周圍環境相結合。這可能消除了需要比對人類給出更詳細描述的需求,因為Astra知道你在看什麼,並能看到你所見。

在演示視頻中,Astra的視覺識別能力尤其突出,但音頻和視頻並不是唯一的輸入。視頻一開始,用戶要求Astra告訴他們一些發出聲音的東西,並用手機相機掃描辦公室環境。當揚聲器監視器進入視野時,Astra識別出它。將相機靠近揚聲器,用戶畫出箭頭指向揚聲器上的兩個圓圈之一,並詢問它的名稱。Astra正確地識別出這部分是高音單元,負責產生高頻聲音。

Astra的記憶能力超越輸入回憶

當他們走過辦公桌時,可以看到桌上有一副眼鏡。他們將相機指向窗外,詢問所在的社區。從有限的數據中,Astra識別出他們的位置。接著,當被問及用戶把眼鏡放在哪裡時,Astra展示了其視覺回憶能力。記住之前看到但未提及的東西,Astra說眼鏡在辦公桌上,並補充說它們靠近一個紅蘋果,讓它們更容易找到。

雖然Astra仍處於原型階段,且手機記憶有限,但Astra的回憶是短期且可能基於會話的。當持久記憶成為可能並更深入整合到AI助手中時,這些記憶功能可以回顧之前的會話。這種可能基於雲的功能可能會帶來高度個性化的AI體驗,Astra將學習你的持續項目、個人偏好和個性。

更多Project Astra的實際應用

Astra的多樣性在展示多種現實世界的援助任務中得到了證明。這些例子創意十足且考慮周到。將相機對準一杯彩色鉛筆,要求Astra提供關於它們的頭韻,這展示了其語言能力。與許多AI回應不同,這次的頭韻在嘗試使用自然語言提示獲得創意輸出時並不差。

詢問Astra辦公室電腦顯示器上顯示的開發者代碼的一部分,得到了正確的回應。用戶隨後切換到眼鏡設備原型,查看白板上的一個似乎是網絡負載平衡(NLD)系統的圖示。他們在服務器和數據庫的圖畫間畫了一條箭頭,詢問如何加快系統速度。基於手繪圖示的視覺輸入,Astra回應添加緩存可以提高速度,這令人印象深刻。

注入一些幽默感,下一步是一幅簡單的兩隻貓臉的畫,其中一隻眼睛上有紅色X。舉起一個帶有問號的小紙箱,Astra被問及這讓它想起什麼。回應是薛定谔的貓,一個由奧地利物理學家Erwin Schrödinger設計的思想實驗,該實驗說明了一個量子悖論,即貓可以同時被認為是死的和活的,因為它的命運取決於一個未來可能不會發生的事件。

演示以一個老虎玩偶和一隻真正的金毛尋回犬並排展示結束。Astra被要求為它們兩個起一個樂隊名字。答案是金色條紋,這與之前的頭韻一樣,是一個不錯的回應。Project Astra的多模態特性增加了其輸出。

雲端處理目前支持Astra的智能

主題演講顯示,Google高度優化的張量處理單元(TPUs)運行Project Astra。Astra不在設備上運行。Google在處理大型語言模型(LLMs)的硬件技術方面處於領先地位。訓練完備的AI模型通常更小。看來Google暗示它最終會在移動設備上運行。

這並不令人驚訝,因為Google的移動SoC TPUs強大,每一代都不僅僅是漸進的改進。然而,我們對這個早期原型的方向知之甚少。如果Astra依賴於雲和不斷的網絡連接,公開發布後可能會引入延遲問題。

AI助手的未來

雖然Project Astra仍處於早期階段,並且人工智能開發正在以驚人的速度推進,但看來Google是首個實現實用AI助手的公司。通過實時處理多種信息來源,它有可能成為移動用戶的日常工具。這項技術可以擴展到智能家居、教育環境和創意項目。

展望未來,Google計劃將Astra的元素整合到其Gemini應用中,可能為我們提供親身體驗的機會。這種向自然和響應式人工智能互動的轉變,以及對現實世界環境的意識,是一個受歡迎的改變。自從其早期作為Bard以來,Google Gemini已經取得了長足的進步。隨著像Project Astra這樣的創新技術,我們很快就能在Android設備上看到其一些功能。

編輯評論

Project Astra展示了AI技術的未來潛力,尤其是在多模態處理和實時環境感知方面。然而,這也引發了一些值得關注的議題。首先,雖然這項技術令人興奮,但其依賴於雲端處理可能帶來隱私和數據安全的挑戰。用戶的個人數據如何被處理和保護將成為關鍵問題。

此外,Astra在實時環境中運行的能力是否能夠在實際應用中保持高效,尤其是在網絡連接不穩定的情況下,仍需進一步驗證。這項技術的廣泛應用需要考慮到不同的用戶需求和環境變量。

最後,Astra的多模態特性和記憶功能為AI助手的未來開闢了新的可能性,但也要求我們重新思考人機互動的倫理和法律框架。這樣的技術如何影響我們的日常生活,並在何種程度上應該被接受,都是值得深思的問題。總體而言,Project Astra代表了一個令人興奮的技術進步,但伴隨著需要謹慎考量的挑戰和機遇。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Base Setup
keep 100 percent facial information adherence of the attached image and turn her into a girl standing beneath autumn leaves outside a traditional wooden structure in a live action photograph or movie still, wearing a complex suggestive outfit that harmonizes with the warm fall tones.

Shot and Camera
Three quarter shot at slightly low height, framing her off center to the right so the yellow leaves and carved wooden panels dominate the left. Maintain the intimate close framing and vertical orientation feel of the reference.

Identity and Pose
Preserve her age read, build, silhouette, hairstyle length, and skin tone. She leans lightly against the doorframe, one hand grazing a hanging leaf, her posture relaxed and candid, 8k Photorealistic and hyper realistic.

Lighting and Environment
Soft warm daylight filters through the leaves, casting dappled highlights on her hair and outfit. Ground her feet on aged wooden flooring with natural grain, faint scuffs, and subtle contact shadows.

Masking and Constraints
Change only wardrobe and placement while keeping lighting, perspective, white balance, pose, face geometry, body proportions, and silhouette the same. Absolutely no added text, no CGI look, no plastic skin, no floating feet, with consistent perspective and correct contact shadows. A hyper-realistic portrait of a man wearing bright yellow neon glasses, his face illuminated with glowing mathematical formulas and physics equations. Warm golden light reflects from his glasses onto his skin. The man has a serious, intelligent expression, short styled hair, and a trimmed beard. His yellow puffer jacket also glows with floating equations and symbols, giving a futuristic holographic effect. Dark teal bokeh lights in the background create depth and contrast. Ultra-detailed skin texture, cinematic lighting, sharp focus, high-contrast neon glow, sci-fi aesthetic, 8K, volumetric light, depth of field, crisp reflections. Edit the uploaded photo (face based on the reference photo). Ensure the face remains consistent with the person in the uploaded image, without changing facial structure, skin tone . Create a Create an 8K ultra-realistic image of woman dancing joyfully in the rain at night, wearing a white sleeveless dress that flares out as she twirls. She has a bright, happy expression on her face. The background features softly glowing streetlights reflecting on a wet surface, creating a warm, shimmering ambiance. The rain is falling steadily, adding a dynamic and lively atmosphere to the scene.Using a Canon EOS R camera with a 50mm f/1.8 lens, f/2.2 aperture, shutter speed 1/200s, ISO 100 and natural light, Full Body, Hyper Realistic Photography, Cinematic, Cinema, Hyper detail, Ultra hd, Color Correction, ultra hd, hdr , color grading, 8k.