Google Gemma 3：單GPU挑戰DeepSeek，AI界掀起新風暴？

zero comment

谷歌宣稱Gemma 3達到98%深度尋找精度 – 僅用一個GPU

谷歌表示，透過神經網絡的“蒸餾”技術，他們在計算能力和效率之間找到了平衡。

谷歌的人工智能經濟學最近成為熱議話題，初創企業DeepSeek AI聲稱在部署GPU晶片方面擁有驚人的規模經濟。

不過，谷歌也不甘示弱。在周三，谷歌宣布其最新的開源大型語言模型Gemma 3的準確性接近DeepSeek的R1，但所需的計算能力卻少得多。

根據谷歌的說法，Gemma 3的“Elo”分數（這是一種常用於評估棋手和運動員的測量系統）達到了1338，接近DeepSeek的R1的1363分，這意味著R1在準確性上仍然優於Gemma 3。然而，谷歌估計，若要達到R1的分數，需要32顆Nvidia的主流“H100”GPU，而Gemma 3只需一顆H100 GPU。

谷歌稱其計算能力和Elo分數之間的平衡是一個“甜蜜點”。

在一篇博文中，谷歌將這個新模型描述為“您可以在單個GPU或TPU上運行的最強大模型”，指的是該公司的定制AI晶片“張量處理單元”。

Gemma 3的性能表現超越了多個競爭對手

谷歌的博文指出，Gemma 3在初步的人類偏好評估中超越了Llama-405B、DeepSeek-V3和o3-mini，顯示了其在體積上的卓越性能。

谷歌的模型還超越了Meta的Llama 3的Elo分數，谷歌估計Llama 3需要16個GPU。值得注意的是，競爭對手使用的H100晶片數量是谷歌的估算；DeepSeek AI僅披露了使用1814顆Nvidia較弱的H800 GPU的例子來提供R1的回答。

Gemma 3模型的設計目的是用於設備端，而非數據中心，並且其參數數量（或神經“權重”）遠低於R1和其他開源模型。一般來說，參數越多，所需的計算能力就越高。

Gemma的參數數量分別為10億、40億、120億和270億，相較於6710億的R1來說，算是相當小的數字。R1還可以選擇性地使用37億個參數，通過忽略或關閉部分網絡來達到效果。

使這種效率成為可能的主要增強是廣泛使用的AI技術“蒸餾”，即從較大模型中提取訓練模型權重，並插入到像Gemma 3這樣的較小模型中，以增強其能力。

谷歌在提升模型質量方面的努力

蒸餾模型還經過三個不同的質量控制措施，包括來自人類反饋的強化學習（RLHF），用於塑造GPT和其他大型語言模型的輸出，使其不冒犯且有幫助；以及來自機器反饋（RLMF）和執行反饋（RLEF）的強化學習，谷歌表示這分別提高了模型的數學和編程能力。

谷歌的開發者博文詳細介紹了這些方法，還有一篇單獨的博文描述了用於優化最小版本（10億模型）以適應移動設備的技術，包括四種常見的AI工程技術：量化、更新“鍵值”緩存佈局、改善某些變量的加載時間和“GPU權重共享”。

谷歌不僅比較了Elo分數，還將Gemma 3與之前的Gemma 2和其封閉源的Gemini模型在基準測試上進行比較，例如LiveCodeBench編程任務。Gemma 3的準確性通常低於Gemini 1.5和Gemini 2.0，但谷歌表示這些結果值得注意，稱Gemma 3“顯示出與封閉Gemini模型的競爭性能”。

Gemini模型的參數數量遠超Gemma。

Gemma 3相比Gemma 2的主要進步在於更長的“上下文窗口”，即模型在任何時候可以記住的輸入標記數量。

Gemma 2僅支持8000個標記，而Gemma 3則擴展至128000個，這被認為是一個“長”上下文窗口，更適合處理整篇論文或書籍。（Gemini和其他封閉源模型的上下文窗口仍然更強大，Gemini 2.0 Pro的上下文窗口為200萬標記。）

Gemma 3的多模態能力和多語言支持

Gemma 3還具備多模態能力，這是Gemma 2所不具備的。這意味著它可以處理圖像輸入，並對諸如“這張照片裡有什麼？”的查詢作出回應。此外，Gemma 3支持超過140種語言，而Gemma 2僅支持英語。

在細節方面，還有許多有趣的功能。例如，所有大型語言模型的一個知名問題是，它們可能會記住訓練數據集的部分內容，這可能導致信息洩露和隱私違規。如果模型被惡意技術利用，這將是一個問題。

谷歌的研究人員對信息洩露進行了測試，通過抽樣訓練數據，查看從Gemma 3中可以直接提取多少信息，並指出“我們發現Gemma 3模型記住長文本的比率比以前的模型低得多”，這理論上意味著該模型對信息洩露的脆弱性降低。

想要了解更多技術細節的人可以閱讀Gemma 3的技術論文。

在當今的AI競爭中，谷歌的Gemma 3無疑為開發者提供了一個既高效又強大的選擇，尤其是對於資源有限的使用者來說。隨著技術的進步，如何平衡計算能力和效率成為了未來AI模型設計的重要議題。Gemma 3的推出，或許預示著一個更加開放和可持續的AI生態系統的來臨。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

Google Gemma 3：單GPU挑戰DeepSeek，AI界掀起新風暴？

chatgpt

🔥 CHATGPT PLUS 帳戶出租

Google Gemma 3：單GPU挑戰DeepSeek，AI界掀起新風暴？

chatgpt

Related Articles

YouTube短片用AI面容 創作新時代黎啦！

AI傾偈機助情緒？研究揭抑鬱焦慮風險！

蘋果新Siri智能chatbot登場 搶跑ChatGPT！

🔥 CHATGPT PLUS 帳戶出租

YouTube短片用AI面容　創作新時代黎啦！

蘋果新Siri智能chatbot登場搶跑ChatGPT！