新一代SmolVLM：壓縮至2B參數的邊緣AI模型

zero comment

Hugging Face推出SmolVLM：一款適用於邊緣設備的2B多模態AI模型

人工智能創業公司Hugging Face最近推出了一系列開源的緊湊型視覺語言模型，名為SmolVLM。這款模型擁有20億個參數，專為設備端推斷而設計，該公司聲稱其在相似的GPU RAM使用和令牌吞吐量下表現優於其他同類模型。推出時有三個模型可供選擇：SmolVLM-Base，提供下游微調；SmolVLM-Synthetic，基於合成數據的微調變體；以及SmolVLM Instruct，一個基於指令的微調變體。

什麼是SmolVLM？

SmolVLM的架構與Hugging Face的另一款視覺語言模型Idefics3類似。然而，SmolVLM在幾個方面有所不同：Hugging Face選擇了SmolLM2 1.7B作為語言基礎，而非Llama 3.1 8B，並且將修補的視覺信息壓縮比率從Idefics3的4倍提高到9倍。其他差異包括：

– 使用384×384的修補，而非364×364，因為384能被3整除，這對我們的像素重組策略至關重要。
– 因此，我們將視覺基礎改為使用形狀優化的SigLIP，配合384×384像素的修補和14×14的內部修補。

Hugging Face的研究人員在一篇博客文章中寫道：“今年多模態AI的蓬勃發展，許多大型視覺語言模型相繼推出。趨勢最初是擴大計算能力，隨後擴大數據多樣性，通過大型模型生成合成數據，最近則是縮小模型以提高效率。”他們指出，小型開放模型允許在瀏覽器或邊緣設備上本地部署，降低推斷成本，並促進用戶自定義。

SmolVLM能理解和處理圖像與文本，並能協助完成各種任務，如圖像標題生成（描述圖像中的內容）、視覺問答（根據圖像內容回答問題）和故事創作（根據一系列圖像生成故事）。然而，Hugging Face強調，該模型無法創建圖像。

該公司還對不當使用提出警告，指出SmolVLM無法評估或給予個人分數，無法協助進行關鍵的自動決策，不能生成不可靠的事實內容，也不應用於垃圾郵件生成、虛假信息活動、騷擾或未經授權的監視等惡意用途。

以下是公司提供的示例：

當被問及「我計劃訪問這座寺廟，給我一些旅行建議」時，SmolVLM的回應如下：

“大皇宮是曼谷最著名的地標，因其驚人的建築和歷史而值得一遊。以下是我們對這座宮殿的一些喜愛之處：

– 主要建築：位於複合體中央，主要建築的瓷磚工藝精緻，涵蓋了每一寸結構，包含龍、神話生物、花卉和幾何形狀等傳統泰國圖案。屋脊的設計精美，擁有多層瓷磚，並裝飾有金色點綴。
– 塔樓與尖頂：大皇宮內有幾座塔樓，包括普拉納空西阿育塔雅國立博物館塔，展示泰國文化和遺產的展品。另一座著名的塔是Wat Yai Chai Mongkol塔，裡面有描繪佛教神話場景的美麗壁畫。
– 建築風格：這種建築風格結合了東南亞常見的印度和高棉風格。你會注意到如佛塔（圓頂結構）、蓮花雕刻和這些地區宗教建築典型的華麗細節等影響。
– 參觀體驗：在探索大皇宮時，遊客應注意由於安全措施而制定的某些規則，包括在某些區域禁止拍照或禁止在外面使用閃光燈。此外，在旅遊高峰季節可能會有排隊現象，因此在計劃前往時要考慮周全。

訪問大皇宮的旅行建議：
– 最佳訪問時間：最佳的訪問時間可能是黎明前的清晨，當時氣溫顯著下降，使四處行走更加輕鬆。
– 交通：公共交通選項存在，但可能無法直接到達大皇宮；建議考慮搭乘計程車。
– 餐飲選擇：大皇宮附近並沒有許多用餐設施，但當地的小吃攤提供美味的餐點。
– 着裝指南：雖然並非強制要求，但穿著傳統泰國服裝（如沙龍）能增添文化體驗。然而，短褲或褲子在膝蓋以上是被允許的。
– 安全措施：遊客必須遵循標示為「禁止拍照」等的限制區域標誌。隨身攜帶身份證明文件以備不時之需。

遵循這些指導方針，你的旅行將無疑增強對泰國豐富歷史背景的理解，並提升個人享受！

Hugging Face強調，其最新的視覺語言模型在所有現有的變壓器模型中擁有“最佳的內存使用”。該公司解釋道：“這使其能夠在設備上高效運行，例如在筆記本電腦上。”

結論

SmolVLM的推出，使得多模態AI技術在邊緣設備上的應用更具可行性，這不僅有助於降低運算成本，也使得用戶可以更方便地進行自定義操作。從某種程度上來說，這標誌著AI技術更廣泛的普及化趨勢。隨著小型開放模型的增長，未來的應用可能會更加多元化，並且會在特定場景中發揮更大的作用。但同時，對於這些技術的負責任使用也顯得尤為重要，尤其是在防範不當使用和保障隱私方面，這需要業界和社會共同努力。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

新一代SmolVLM：壓縮至2B參數的邊緣AI模型

chatgpt

發佈留言取消回覆

新一代SmolVLM：壓縮至2B參數的邊緣AI模型

chatgpt

發佈留言 取消回覆

Related Articles

Jefferies大幅沽出阿里巴巴股票揭秘！

AI發展新挑戰：開放模型與倫理抉擇

中國突破美國晶片封鎖 AI市場大洗牌！

發佈留言取消回覆