新一代SmolVLM:壓縮至2B參數的邊緣AI模型

Ai




Hugging Face推出SmolVLM:一款適用於邊緣設備的2B多模態AI模型

人工智能創業公司Hugging Face最近推出了一系列開源的緊湊型視覺語言模型,名為SmolVLM。這款模型擁有20億個參數,專為設備端推斷而設計,該公司聲稱其在相似的GPU RAM使用和令牌吞吐量下表現優於其他同類模型。推出時有三個模型可供選擇:SmolVLM-Base,提供下游微調;SmolVLM-Synthetic,基於合成數據的微調變體;以及SmolVLM Instruct,一個基於指令的微調變體。

什麼是SmolVLM?

SmolVLM的架構與Hugging Face的另一款視覺語言模型Idefics3類似。然而,SmolVLM在幾個方面有所不同:Hugging Face選擇了SmolLM2 1.7B作為語言基礎,而非Llama 3.1 8B,並且將修補的視覺信息壓縮比率從Idefics3的4倍提高到9倍。其他差異包括:

– 使用384×384的修補,而非364×364,因為384能被3整除,這對我們的像素重組策略至關重要。
– 因此,我們將視覺基礎改為使用形狀優化的SigLIP,配合384×384像素的修補和14×14的內部修補。

Hugging Face的研究人員在一篇博客文章中寫道:“今年多模態AI的蓬勃發展,許多大型視覺語言模型相繼推出。趨勢最初是擴大計算能力,隨後擴大數據多樣性,通過大型模型生成合成數據,最近則是縮小模型以提高效率。”他們指出,小型開放模型允許在瀏覽器或邊緣設備上本地部署,降低推斷成本,並促進用戶自定義。

SmolVLM能理解和處理圖像與文本,並能協助完成各種任務,如圖像標題生成(描述圖像中的內容)、視覺問答(根據圖像內容回答問題)和故事創作(根據一系列圖像生成故事)。然而,Hugging Face強調,該模型無法創建圖像。

該公司還對不當使用提出警告,指出SmolVLM無法評估或給予個人分數,無法協助進行關鍵的自動決策,不能生成不可靠的事實內容,也不應用於垃圾郵件生成、虛假信息活動、騷擾或未經授權的監視等惡意用途。

以下是公司提供的示例:

當被問及「我計劃訪問這座寺廟,給我一些旅行建議」時,SmolVLM的回應如下:

“大皇宮是曼谷最著名的地標,因其驚人的建築和歷史而值得一遊。以下是我們對這座宮殿的一些喜愛之處:

– 主要建築:位於複合體中央,主要建築的瓷磚工藝精緻,涵蓋了每一寸結構,包含龍、神話生物、花卉和幾何形狀等傳統泰國圖案。屋脊的設計精美,擁有多層瓷磚,並裝飾有金色點綴。
– 塔樓與尖頂:大皇宮內有幾座塔樓,包括普拉納空西阿育塔雅國立博物館塔,展示泰國文化和遺產的展品。另一座著名的塔是Wat Yai Chai Mongkol塔,裡面有描繪佛教神話場景的美麗壁畫。
– 建築風格:這種建築風格結合了東南亞常見的印度和高棉風格。你會注意到如佛塔(圓頂結構)、蓮花雕刻和這些地區宗教建築典型的華麗細節等影響。
– 參觀體驗:在探索大皇宮時,遊客應注意由於安全措施而制定的某些規則,包括在某些區域禁止拍照或禁止在外面使用閃光燈。此外,在旅遊高峰季節可能會有排隊現象,因此在計劃前往時要考慮周全。

訪問大皇宮的旅行建議:
– 最佳訪問時間:最佳的訪問時間可能是黎明前的清晨,當時氣溫顯著下降,使四處行走更加輕鬆。
– 交通:公共交通選項存在,但可能無法直接到達大皇宮;建議考慮搭乘計程車。
– 餐飲選擇:大皇宮附近並沒有許多用餐設施,但當地的小吃攤提供美味的餐點。
– 着裝指南:雖然並非強制要求,但穿著傳統泰國服裝(如沙龍)能增添文化體驗。然而,短褲或褲子在膝蓋以上是被允許的。
– 安全措施:遊客必須遵循標示為「禁止拍照」等的限制區域標誌。隨身攜帶身份證明文件以備不時之需。

遵循這些指導方針,你的旅行將無疑增強對泰國豐富歷史背景的理解,並提升個人享受!

Hugging Face強調,其最新的視覺語言模型在所有現有的變壓器模型中擁有“最佳的內存使用”。該公司解釋道:“這使其能夠在設備上高效運行,例如在筆記本電腦上。”

結論

SmolVLM的推出,使得多模態AI技術在邊緣設備上的應用更具可行性,這不僅有助於降低運算成本,也使得用戶可以更方便地進行自定義操作。從某種程度上來說,這標誌著AI技術更廣泛的普及化趨勢。隨著小型開放模型的增長,未來的應用可能會更加多元化,並且會在特定場景中發揮更大的作用。但同時,對於這些技術的負責任使用也顯得尤為重要,尤其是在防範不當使用和保障隱私方面,這需要業界和社會共同努力。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
add lotso and hamm [Subject]: Young Asian female with "Imada Mio-inspired" doll-like aesthetic (精緻洋娃娃臉). She has large round expressive eyes, a small V-line face, and rosy cheeks. Her expression is innocent, energetic, and slightly flirty. [Hair]: Messy morning hair (剛睡醒的凌亂感), long dark brown hair, slightly tousled, natural volume. [Outfit]: Wearing an oversized translucent white button-down shirt (男友風白襯衫), unbuttoned at the top to reveal collarbones, creating a "bottomless" look (下衣失蹤風格). [Style]: Japanese Gravure Photobook style (寫真集風格), Pure & Sexy vibe, bright high-key lighting, soft skin texture, Fujifilm PRO 400H color tone. Create a photorealistic movie-poster image for Zootopia 2. The scene shows a young Asian man and an oversized black shirt standing inside a crowded, dimly lit cinema. He’s flanked by Judy Hopps in full police uniform and Nick Wilde, both rendered in their official Disney CGI style. Capture the shot from a low angle so the characters feel larger than life. The cinema screen behind them is glowing with an intense action scene from the film. Let the light from the screen spill across their faces and clothing to create dramatic high contrast. The environment should feel alive with background silhouettes, soft haze, and the warm ambience of a packed theatre. Style the composition like an official Disney promotional poster: epic layout, sharp detail, high resolution, balanced framing, and clean edges. The man and the cinema should be fully photorealistic, while Judy and Nick retain their signature animated look.
At the bottom, include:
• The Disney logo
• The title ZOOTOPIA 2 in bold green and white
• The release line ONLY IN THEATERS NOVEMBER 26 Poster tone: cinematic, polished, high-end theatrical marketing.