解讀谷歌錯綜複雜的AI帝國
谷歌於2023年12月推出了首個Gemini模型,當時其聊天機器人仍名為Bard。自那時起,這家搜索巨頭逐漸將Gemini名稱應用於幾乎所有與AI相關的產品上。
最初的Bard聊天機器人成為Gemini,隨後Gemini助手也在Android上取代了之前的助手。該公司還將Gemini應用於Docs和開發者工具中。
在最初的熱潮過後,谷歌的活動似乎減緩了。與之前推出新名稱不同,該公司選擇加倍專注於Gemini,將其添加到越來越多的產品和服務中。
2024年12月,谷歌推出了Gemini 2.0。首席執行官Sundar Pichai將其發布描述為代理時代的開始,這一時代的特點是AI模型根據一組初始指令代表用戶執行任務。
什麼是Gemini?
Gemini模型不僅僅是基於文本的,而是一個多模態模型,可以處理圖像、視頻、音頻甚至計算機代碼。這與OpenAI的GPT-4o類似,Gemini 2還能輸出這些多種模態。
根據谷歌一貫的運作方式,該模型的最新版本在過去幾個月中悄然開發,並提供了一些更受推崇的產品如ChatGPT所忽視的功能。
例如,現在在Hugging Face上有超過50,000種Gemini變體,涵蓋多種語言和用途。
不幸的是,這種多樣性引發了相當大的混淆。近期Gemini的推出潮使得情況變得更加複雜,因此我們認為是時候清晰地劃出Gemini宇宙的地圖,以便更容易理解。
首先要明白的是,谷歌喜歡混合搭配模型技術和應用,使用相同名稱的變體。一旦你理解了這一點,其他的就會開始變得清晰。
1. 模型
一切始於DeepMind,這個於2010年在倫敦成立的AI實驗室。這一整個AI行業的基石為世界帶來了LaMDA、PaLM和Gato AI模型。Gemini是這個世代家族的最新版本。
Gemini 1.0模型推出了三種版本,分別是Ultra、Pro和Nano。顧名思義,這些模型的性能從高端到設計用於手機及其他小型設備的小型版本不等。
需要注意的是,隨後的推出造成了相當大的混淆,這是因為谷歌在其搜索和AI業務之間的哲學鬥爭。
AI對搜索的侵蝕始終是懸在公司頭上的劍,這也促成了其對推出AI產品的「會不會」態度。
Gemini 1.5在十個月前推出,是對原始模型的增量改進,集成了專家混合技術(MoE)、一百萬個標記的上下文窗口和新架構。此後,我們見證了Gemini 1.5 Flash、Gemini 1.5 Pro-002和Gemini 1.5 Flash-002的推出,後者是在三個月前發布的。
同時,該公司還驚人地進軍開放模型領域,推出了免費的Gemma產品。這些2B和7B參數的模型被視為對Meta釋放Llama模型家族的直接回應。Gemma 2.0在五個月後發布。
Gemini 2.0於2024年12月推出,被譽為代理時代的模型。首個發布的版本是Gemini 2.0 Flash Experimental,這是一個高性能的多模態模型,支持工具使用如谷歌搜索和代碼生成的功能調用。
在幾周內,該公司推出了Gemini 2.0 Experimental Advanced,顯然是當前世代的完整版本。我們之所以這麼說,是因為目前還沒有人真正確定什麼是完整的,什麼是早期代碼。
可以確定的是,Gemini 2.0 Flash Experimental是一個極其強大且表現卓越的AI模型。
Gemini模型
– Gemini 1 Ultra – 強大
– Gemini 1 Pro – 中等
– Gemini 1 Nano – 小型
– Gemini 1.5 Flash – 快速、便宜
– Gemini 1.5 Pro – 慢、昂貴
– Gemini 2.0 Flash Experimental
– Gemini 2.0 Flash Thinking
– Gemini 2.0 Experimental Advanced
Gemma模型(Gemmaverse)
– Gemma 1 (2B, 7B參數)
– Gemma 2 (2B, 9B, 27B): 27B從零開始訓練。
– CodeGemma (2B和7B): 專門針對代碼生成進行微調。
– RecurrentGemma (2B, 9B): 基於Griffin,而非Transformer。
– PaliGemma 2 (3B, 10B, 28B): 視覺模型接受文本和圖像輸入。多語言。
– DataGemma: 專注於數據的模型
– GemmaScope: AI研究工具
2. 應用
谷歌既是一家研究公司,也是產品公司。DeepMind和谷歌AI負責研究並發布模型,而谷歌的另一面則將這些模型應用於產品中,包括硬件、軟件和服務。
聊天機器人是谷歌應用中的主導,正如其他許多基礎模型供應商一樣。再次強調,作為谷歌,名稱和功能方面有些模糊。
Gemini聊天機器人。這曾經被稱為Bard,與Gemini模型完全不同。十個月前,Bard和另一個谷歌產品Duet AI合併,並以Gemini品牌推出了Android應用。
此後,Gemini聊天已被整合到更多谷歌產品中,包括Android助手、Chrome瀏覽器、Google Photos和Google Workspace。
在撰寫本文時,Gemini聊天機器人和舊版Android助手在最新版本的Android手機操作系統上提供雙選擇。Gemini Live被視為谷歌對OpenAI的低延遲、高速度的高級語音模式的替代品,並預計將在不久的將來在谷歌Pixel智能手機上推出。
產品
儘管作為聊天機器人的Gemini可能獲得最多新模型和AI愛好者的關注,但大多數人對AI的關注將集中在Gemini的移動端。
這有兩種形式,首先通過iPhone和Android上的Gemini應用,其次是其深度整合到Android操作系統中的方式。
在Android上,開發者甚至可以在自己的應用中使用Gemini Nano模型,而無需使用基於雲的或昂貴的模型來執行基本任務。
這種深度整合允許從Gemini觸發系統功能,還可以使用Gemini Live——這個AI語音助手來播放歌曲等等。
實驗
最新的Gemini模型推出伴隨著一系列與新模型相關的重大谷歌應用發布或預覽。這些項目長而令人印象深刻,其中一些包括:
– Project Astra:展示AI助手的視覺理解能力的壯觀演示
– Project Mariner:展示多模態AI在現實世界用例中的強大能力
– NotebookLM:研究和學習應用的新範式
– Deep Research:一個功能強大的代理研究工具,具有深度搜索能力和巨大上下文
3. 平台
除了Gemini的移動和網絡版本外,還有一些針對高級和開發者的專注產品。這些通常提供最先進的模型和功能,如Gemini Advanced中的Deep Research。
– Gemini Advanced:谷歌的高級訂閱式AI產品入口。
– Google Cloud:按需計費,提供全範圍的企業和消費者產品。
– AI Studio:免費的AI遊樂場,用於測試和評估Gemini範圍內的AI模型。
– Vertex AI:作為Google Cloud服務的一部分的AI開發平台。
– Google One:針對消費者的訂閱式雲存儲服務。
評論
谷歌在AI領域的擴張顯示了其對於技術創新的堅持,尤其是在Gemini系列的推出上。這不僅是對市場需求的回應,也反映了其在全球科技競爭中的地位。隨著Gemini的多模態能力進一步提高,未來的應用場景將更加廣泛,無論是在商業還是日常生活中,AI的整合將成為一種趨勢。
不過,谷歌面臨的挑戰也不容忽視,包括用戶數據隱私問題和AI技術的道德使用。隨著技術的進步,如何在創新與倫理之間取得平衡,將是谷歌及整個行業需要持續思考的問題。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。