Google新AI Gemini 3震撼登場 多模態技術領先群雄

Ai




Google發布備受期待的Gemini 3

Google於星期二推出了其最新的AI模型Gemini 3,向消費者日益增長的期望作出回應。Gemini 3在多項業界標準測試中表現優於OpenAI的頂尖模型,展現了顯著的性能提升。這款模型的原生多模態設計,可能成為Google在前沿AI模型競賽中的獨特優勢。

用戶對Gemini 3的表現充滿期待,不少人對其能力的預覽感到震驚,甚至引發前OpenAI研究員Andreij Karpathy的玩笑話:「聽說Gemini 3能在你提問前就回答,甚至可以和你的貓對話。」然而,過度期待亦可能帶來失望,正如部分用戶對OpenAI今年8月發布的GPT-5抱有突破性期待,結果只見微小改進而感失望。

Google深知大型基礎模型的特質,難以預測經過大規模訓練後會出現哪些新功能,亦難以預料模型屬性的變化,這令熱衷用戶時常感到困惑。Google首席AI架構師兼DeepMind技術總監Koray Kavukcuoglu表示:「我們投入大量內外部測試,但最終仍需數以億計用戶以多種方式測試和發揮創意。」

回顧

Google快速推出新產品,是其努力回歸本源、迎接AI這場顛覆性技術浪潮的策略之一。DeepMind聯合創辦人兼CEO Demis Hassabis今年4月任命Josh Woodward負責Gemini應用,目標是擴大其功能,吸引更多用戶。Woodward領導的Google Labs曾開發出廣受歡迎的Notebook LM實驗應用。

Google表示,目前該應用擁有6.5億月活躍用戶,雖然距離ChatGPT約8億周活躍用戶仍有差距,但已接近。Gemini 3同時推出多款新產品,包括無需編碼的開發工具、可以整理電子郵件的智能助理,以及可將簡單指令轉化成互動圖像的「vibe coding」工具。

Kavukcuoglu強調團隊高度協調,使模型開發完成時,產品亦準備好同步發布。Woodward形容目前工作節奏快且全面,團隊不斷腦力激盪,思考用戶反饋及新模型能力如何轉化為新功能。

深入了解

Google在追趕ChatGPT成功後,選擇打造「原生多模態」基礎模型,訓練數據涵蓋文字、圖片、影片及其他多媒體。DeepMind期望這種方法長遠有助發展通用人工智能和機器人技術,但短期內已在影像和影片生成領域取得領先。

Woodward指出,多模態設計促成不同模式間的互補提升。例如Gemini 3的「多模態vibe coding」,用戶可視覺化地指示模型修改程式碼。Google產品經理能截圖應用畫面,直接上傳模型,現場編寫新功能或修復漏洞,顯著提高開發效率。這種跨模態協同令Gemini 3比前一版本更強大。

另一新功能是「生成式介面」,用戶可要求視覺化輔助學習複雜主題,如細胞生物學。Gemini 3可在背景編寫應用程式,並以動畫互動形式呈現,提升學習體驗。Woodward認為這類互動式視覺工具未來會廣泛滲透至各種應用。

記者觀點

從基準測試來看,Gemini 3確實令人印象深刻,Google憑藉DeepMind團隊及強大基建,將持續保持領先甚至領先地位。但大部分Google用戶未必關心基準數據,更在意產品實際體驗。

Google多年來最大挑戰,是將AI能力轉化為像YouTube、Google地圖、Gmail及搜尋一樣改變生活的核心產品。Gemini 3的推出展現了廣泛可能性,涵蓋企業及消費市場、生產力及娛樂領域,凸顯Google龐大的生態系統。雖然龐大體系運作緩慢,但若能有效推進AI產品開發,規模反而成為優勢。

例如生成式介面或許是未來搜尋的樣貌。OpenAI和Perplexity已將搜尋從一堆藍色連結轉變為連貫答案,但未必是終點。大多數人是視覺學習者,互動視覺應用比文字段落更受歡迎。

目前尚未有足夠算力免費向數十億用戶提供此類服務,但這正是Google擅長的領域——尋找高效基建方案,甚至計劃在太空建設太陽能數據中心。

Google面對艱鉅挑戰,需在龐大帝國各角落持續建設。從產品發布可見,留守Google的員工似乎更享受工作,雖然工時更長,每次推出新產品都讓人看到進步的曙光。

意見分歧空間

路透社近期報道,DeepMind CEO Hassabis較重視科學研究,較少關注商業成效。一些投資者質疑,憑藉先天優勢,為何Alphabet未能成為無可爭議的AI領導者。Deepwater資產管理合夥人Gene Munster形容這是「擁有全隊天才卻未奪冠的經典案例」,該公司今年已減持約1400萬美元Alphabet股票,因對其在快速變化AI市場中的前景感到擔憂。

值得注意

商業內幕指出,Google在AI領域仍需追趕OpenAI等公司,但其在雲端、晶片和研究上的投資開始顯現成效。若Gemini 3大獲成功,「Google只需把握住機會,不要犯錯」,技術記者Hugh Langley如是說。

編者評論

Google推出Gemini 3,標誌著AI產業競爭進入新階段,尤以多模態能力為核心創新,將文字、圖片與影片融為一體,開啟更豐富的互動體驗。這種跨媒體融合不僅提升模型智能,更為用戶帶來全新應用場景,從學習輔助到軟件開發,均展示出強大潛力。

然而,Google的龐大體系既是優勢也是挑戰。如何在保持創新速度的同時,將AI技術無縫整合進日常產品,成為其最大考驗。過去幾年Google在AI領域屢有突破,但未能像OpenAI般迅速轉化為消費者熱愛的產品,反映出規模與靈活性之間的矛盾。

Gemini 3的互動式生成介面或許是搜尋體驗的未來形態,從純文字到多媒體互動,滿足不同學習風格和需求。但這也對計算資源提出更高要求,Google必須持續優化基礎設施,才能實現全球規模的普及。

最後,DeepMind的科研導向與市場需求間的平衡,是Alphabet需要深思的策略問題。只有將技術領先轉化為切實可用的產品,才能在激烈的AI競賽中奪魁。Gemini 3是重要一步,但Google未來如何走得更遠,仍需時間檢驗。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗
滴滴出行優惠 👉 新用戶香港 Call 車首程免費(最高減 HK$88)— 按此領取優惠!