Google新AI Gemini 3震撼登場 多模態技術領先群雄

Ai




Google發布備受期待的Gemini 3

Google於星期二推出了其最新的AI模型Gemini 3,向消費者日益增長的期望作出回應。Gemini 3在多項業界標準測試中表現優於OpenAI的頂尖模型,展現了顯著的性能提升。這款模型的原生多模態設計,可能成為Google在前沿AI模型競賽中的獨特優勢。

用戶對Gemini 3的表現充滿期待,不少人對其能力的預覽感到震驚,甚至引發前OpenAI研究員Andreij Karpathy的玩笑話:「聽說Gemini 3能在你提問前就回答,甚至可以和你的貓對話。」然而,過度期待亦可能帶來失望,正如部分用戶對OpenAI今年8月發布的GPT-5抱有突破性期待,結果只見微小改進而感失望。

Google深知大型基礎模型的特質,難以預測經過大規模訓練後會出現哪些新功能,亦難以預料模型屬性的變化,這令熱衷用戶時常感到困惑。Google首席AI架構師兼DeepMind技術總監Koray Kavukcuoglu表示:「我們投入大量內外部測試,但最終仍需數以億計用戶以多種方式測試和發揮創意。」

回顧

Google快速推出新產品,是其努力回歸本源、迎接AI這場顛覆性技術浪潮的策略之一。DeepMind聯合創辦人兼CEO Demis Hassabis今年4月任命Josh Woodward負責Gemini應用,目標是擴大其功能,吸引更多用戶。Woodward領導的Google Labs曾開發出廣受歡迎的Notebook LM實驗應用。

Google表示,目前該應用擁有6.5億月活躍用戶,雖然距離ChatGPT約8億周活躍用戶仍有差距,但已接近。Gemini 3同時推出多款新產品,包括無需編碼的開發工具、可以整理電子郵件的智能助理,以及可將簡單指令轉化成互動圖像的「vibe coding」工具。

Kavukcuoglu強調團隊高度協調,使模型開發完成時,產品亦準備好同步發布。Woodward形容目前工作節奏快且全面,團隊不斷腦力激盪,思考用戶反饋及新模型能力如何轉化為新功能。

深入了解

Google在追趕ChatGPT成功後,選擇打造「原生多模態」基礎模型,訓練數據涵蓋文字、圖片、影片及其他多媒體。DeepMind期望這種方法長遠有助發展通用人工智能和機器人技術,但短期內已在影像和影片生成領域取得領先。

Woodward指出,多模態設計促成不同模式間的互補提升。例如Gemini 3的「多模態vibe coding」,用戶可視覺化地指示模型修改程式碼。Google產品經理能截圖應用畫面,直接上傳模型,現場編寫新功能或修復漏洞,顯著提高開發效率。這種跨模態協同令Gemini 3比前一版本更強大。

另一新功能是「生成式介面」,用戶可要求視覺化輔助學習複雜主題,如細胞生物學。Gemini 3可在背景編寫應用程式,並以動畫互動形式呈現,提升學習體驗。Woodward認為這類互動式視覺工具未來會廣泛滲透至各種應用。

記者觀點

從基準測試來看,Gemini 3確實令人印象深刻,Google憑藉DeepMind團隊及強大基建,將持續保持領先甚至領先地位。但大部分Google用戶未必關心基準數據,更在意產品實際體驗。

Google多年來最大挑戰,是將AI能力轉化為像YouTube、Google地圖、Gmail及搜尋一樣改變生活的核心產品。Gemini 3的推出展現了廣泛可能性,涵蓋企業及消費市場、生產力及娛樂領域,凸顯Google龐大的生態系統。雖然龐大體系運作緩慢,但若能有效推進AI產品開發,規模反而成為優勢。

例如生成式介面或許是未來搜尋的樣貌。OpenAI和Perplexity已將搜尋從一堆藍色連結轉變為連貫答案,但未必是終點。大多數人是視覺學習者,互動視覺應用比文字段落更受歡迎。

目前尚未有足夠算力免費向數十億用戶提供此類服務,但這正是Google擅長的領域——尋找高效基建方案,甚至計劃在太空建設太陽能數據中心。

Google面對艱鉅挑戰,需在龐大帝國各角落持續建設。從產品發布可見,留守Google的員工似乎更享受工作,雖然工時更長,每次推出新產品都讓人看到進步的曙光。

意見分歧空間

路透社近期報道,DeepMind CEO Hassabis較重視科學研究,較少關注商業成效。一些投資者質疑,憑藉先天優勢,為何Alphabet未能成為無可爭議的AI領導者。Deepwater資產管理合夥人Gene Munster形容這是「擁有全隊天才卻未奪冠的經典案例」,該公司今年已減持約1400萬美元Alphabet股票,因對其在快速變化AI市場中的前景感到擔憂。

值得注意

商業內幕指出,Google在AI領域仍需追趕OpenAI等公司,但其在雲端、晶片和研究上的投資開始顯現成效。若Gemini 3大獲成功,「Google只需把握住機會,不要犯錯」,技術記者Hugh Langley如是說。

編者評論

Google推出Gemini 3,標誌著AI產業競爭進入新階段,尤以多模態能力為核心創新,將文字、圖片與影片融為一體,開啟更豐富的互動體驗。這種跨媒體融合不僅提升模型智能,更為用戶帶來全新應用場景,從學習輔助到軟件開發,均展示出強大潛力。

然而,Google的龐大體系既是優勢也是挑戰。如何在保持創新速度的同時,將AI技術無縫整合進日常產品,成為其最大考驗。過去幾年Google在AI領域屢有突破,但未能像OpenAI般迅速轉化為消費者熱愛的產品,反映出規模與靈活性之間的矛盾。

Gemini 3的互動式生成介面或許是搜尋體驗的未來形態,從純文字到多媒體互動,滿足不同學習風格和需求。但這也對計算資源提出更高要求,Google必須持續優化基礎設施,才能實現全球規模的普及。

最後,DeepMind的科研導向與市場需求間的平衡,是Alphabet需要深思的策略問題。只有將技術領先轉化為切實可用的產品,才能在激烈的AI競賽中奪魁。Gemini 3是重要一步,但Google未來如何走得更遠,仍需時間檢驗。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Replace the words in the bottom by ‘tantamount Deco’ A striking black-and-white cinematic photograph of a mysterious woman standing calm and composed in the center of a dense crowd of paparazzi, dozens of photographers surrounding her, all aiming vintage cameras with flashes raised. The woman wears dark sunglasses, minimal makeup, and an elegant dark outfit, her expression emotionless and powerful, symbolizing isolation amid fame. High contrast lighting, dramatic shadows, shallow depth of field, sharp focus on the central subject, blurred foreground faces and cameras, classic film grain, 35mm analog photography style, noir aesthetic, timeless Hollywood atmosphere, intense realism, editorial fashion photography, moody, iconic, award-winning composition. In a brightly lit indoor setting, likely a press conference room, two uniformed police officers flank a man in a plain brown t-shirt. The officers, wearing blue shirts with epaulets and badges, have a firm but neutral grip on the man's shoulders, directing him towards the cameras. The man [image uploaded] with short dark hair, is smiling subtly and maintaining eye contact with the lens.

Stretching across the foreground is a white-draped table, upon which a diverse collection of women's underwear is meticulously displayed. There are dozens of pairs in various colors, patterns, and styles, including solid hues of red, blue, pink, and black, as well as leopard print and other designs. Several microphones with news station logos are placed among the undergarments, pointing towards the man and officers.

Behind the table, a throng of journalists and photographers are actively documenting the event. Many are holding professional video cameras with large lenses and attached lights, while others are using DSLR cameras with flash attachments, and some are capturing footage with their smartphones. The room is illuminated by rectangular fluorescent light panels on the ceiling, casting an even glow. The overall atmosphere suggests a formal public presentation, possibly a police press briefing or an arrest announcement.