
🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放
谷歌宣稱Gemma 3達到98%深度尋找精度 – 僅用一個GPU
谷歌表示,透過神經網絡的“蒸餾”技術,他們在計算能力和效率之間找到了平衡。
谷歌的人工智能經濟學最近成為熱議話題,初創企業DeepSeek AI聲稱在部署GPU晶片方面擁有驚人的規模經濟。
不過,谷歌也不甘示弱。在周三,谷歌宣布其最新的開源大型語言模型Gemma 3的準確性接近DeepSeek的R1,但所需的計算能力卻少得多。
根據谷歌的說法,Gemma 3的“Elo”分數(這是一種常用於評估棋手和運動員的測量系統)達到了1338,接近DeepSeek的R1的1363分,這意味著R1在準確性上仍然優於Gemma 3。然而,谷歌估計,若要達到R1的分數,需要32顆Nvidia的主流“H100”GPU,而Gemma 3只需一顆H100 GPU。
谷歌稱其計算能力和Elo分數之間的平衡是一個“甜蜜點”。
在一篇博文中,谷歌將這個新模型描述為“您可以在單個GPU或TPU上運行的最強大模型”,指的是該公司的定制AI晶片“張量處理單元”。
Gemma 3的性能表現超越了多個競爭對手
谷歌的博文指出,Gemma 3在初步的人類偏好評估中超越了Llama-405B、DeepSeek-V3和o3-mini,顯示了其在體積上的卓越性能。
谷歌的模型還超越了Meta的Llama 3的Elo分數,谷歌估計Llama 3需要16個GPU。值得注意的是,競爭對手使用的H100晶片數量是谷歌的估算;DeepSeek AI僅披露了使用1814顆Nvidia較弱的H800 GPU的例子來提供R1的回答。
Gemma 3模型的設計目的是用於設備端,而非數據中心,並且其參數數量(或神經“權重”)遠低於R1和其他開源模型。一般來說,參數越多,所需的計算能力就越高。
Gemma的參數數量分別為10億、40億、120億和270億,相較於6710億的R1來說,算是相當小的數字。R1還可以選擇性地使用37億個參數,通過忽略或關閉部分網絡來達到效果。
使這種效率成為可能的主要增強是廣泛使用的AI技術“蒸餾”,即從較大模型中提取訓練模型權重,並插入到像Gemma 3這樣的較小模型中,以增強其能力。
谷歌在提升模型質量方面的努力
蒸餾模型還經過三個不同的質量控制措施,包括來自人類反饋的強化學習(RLHF),用於塑造GPT和其他大型語言模型的輸出,使其不冒犯且有幫助;以及來自機器反饋(RLMF)和執行反饋(RLEF)的強化學習,谷歌表示這分別提高了模型的數學和編程能力。
谷歌的開發者博文詳細介紹了這些方法,還有一篇單獨的博文描述了用於優化最小版本(10億模型)以適應移動設備的技術,包括四種常見的AI工程技術:量化、更新“鍵值”緩存佈局、改善某些變量的加載時間和“GPU權重共享”。
谷歌不僅比較了Elo分數,還將Gemma 3與之前的Gemma 2和其封閉源的Gemini模型在基準測試上進行比較,例如LiveCodeBench編程任務。Gemma 3的準確性通常低於Gemini 1.5和Gemini 2.0,但谷歌表示這些結果值得注意,稱Gemma 3“顯示出與封閉Gemini模型的競爭性能”。
Gemini模型的參數數量遠超Gemma。
Gemma 3相比Gemma 2的主要進步在於更長的“上下文窗口”,即模型在任何時候可以記住的輸入標記數量。
Gemma 2僅支持8000個標記,而Gemma 3則擴展至128000個,這被認為是一個“長”上下文窗口,更適合處理整篇論文或書籍。(Gemini和其他封閉源模型的上下文窗口仍然更強大,Gemini 2.0 Pro的上下文窗口為200萬標記。)
Gemma 3的多模態能力和多語言支持
Gemma 3還具備多模態能力,這是Gemma 2所不具備的。這意味著它可以處理圖像輸入,並對諸如“這張照片裡有什麼?”的查詢作出回應。此外,Gemma 3支持超過140種語言,而Gemma 2僅支持英語。
在細節方面,還有許多有趣的功能。例如,所有大型語言模型的一個知名問題是,它們可能會記住訓練數據集的部分內容,這可能導致信息洩露和隱私違規。如果模型被惡意技術利用,這將是一個問題。
谷歌的研究人員對信息洩露進行了測試,通過抽樣訓練數據,查看從Gemma 3中可以直接提取多少信息,並指出“我們發現Gemma 3模型記住長文本的比率比以前的模型低得多”,這理論上意味著該模型對信息洩露的脆弱性降低。
想要了解更多技術細節的人可以閱讀Gemma 3的技術論文。
在當今的AI競爭中,谷歌的Gemma 3無疑為開發者提供了一個既高效又強大的選擇,尤其是對於資源有限的使用者來說。隨著技術的進步,如何平衡計算能力和效率成為了未來AI模型設計的重要議題。Gemma 3的推出,或許預示著一個更加開放和可持續的AI生態系統的來臨。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。