Hugging Face推出SmolVLM:一款適用於邊緣設備的2B多模態AI模型
人工智能創業公司Hugging Face最近推出了一系列開源的緊湊型視覺語言模型,名為SmolVLM。這款模型擁有20億個參數,專為設備端推斷而設計,該公司聲稱其在相似的GPU RAM使用和令牌吞吐量下表現優於其他同類模型。推出時有三個模型可供選擇:SmolVLM-Base,提供下游微調;SmolVLM-Synthetic,基於合成數據的微調變體;以及SmolVLM Instruct,一個基於指令的微調變體。
什麼是SmolVLM?
SmolVLM的架構與Hugging Face的另一款視覺語言模型Idefics3類似。然而,SmolVLM在幾個方面有所不同:Hugging Face選擇了SmolLM2 1.7B作為語言基礎,而非Llama 3.1 8B,並且將修補的視覺信息壓縮比率從Idefics3的4倍提高到9倍。其他差異包括:
– 使用384×384的修補,而非364×364,因為384能被3整除,這對我們的像素重組策略至關重要。
– 因此,我們將視覺基礎改為使用形狀優化的SigLIP,配合384×384像素的修補和14×14的內部修補。
Hugging Face的研究人員在一篇博客文章中寫道:“今年多模態AI的蓬勃發展,許多大型視覺語言模型相繼推出。趨勢最初是擴大計算能力,隨後擴大數據多樣性,通過大型模型生成合成數據,最近則是縮小模型以提高效率。”他們指出,小型開放模型允許在瀏覽器或邊緣設備上本地部署,降低推斷成本,並促進用戶自定義。
SmolVLM能理解和處理圖像與文本,並能協助完成各種任務,如圖像標題生成(描述圖像中的內容)、視覺問答(根據圖像內容回答問題)和故事創作(根據一系列圖像生成故事)。然而,Hugging Face強調,該模型無法創建圖像。
該公司還對不當使用提出警告,指出SmolVLM無法評估或給予個人分數,無法協助進行關鍵的自動決策,不能生成不可靠的事實內容,也不應用於垃圾郵件生成、虛假信息活動、騷擾或未經授權的監視等惡意用途。
以下是公司提供的示例:
當被問及「我計劃訪問這座寺廟,給我一些旅行建議」時,SmolVLM的回應如下:
“大皇宮是曼谷最著名的地標,因其驚人的建築和歷史而值得一遊。以下是我們對這座宮殿的一些喜愛之處:
– 主要建築:位於複合體中央,主要建築的瓷磚工藝精緻,涵蓋了每一寸結構,包含龍、神話生物、花卉和幾何形狀等傳統泰國圖案。屋脊的設計精美,擁有多層瓷磚,並裝飾有金色點綴。
– 塔樓與尖頂:大皇宮內有幾座塔樓,包括普拉納空西阿育塔雅國立博物館塔,展示泰國文化和遺產的展品。另一座著名的塔是Wat Yai Chai Mongkol塔,裡面有描繪佛教神話場景的美麗壁畫。
– 建築風格:這種建築風格結合了東南亞常見的印度和高棉風格。你會注意到如佛塔(圓頂結構)、蓮花雕刻和這些地區宗教建築典型的華麗細節等影響。
– 參觀體驗:在探索大皇宮時,遊客應注意由於安全措施而制定的某些規則,包括在某些區域禁止拍照或禁止在外面使用閃光燈。此外,在旅遊高峰季節可能會有排隊現象,因此在計劃前往時要考慮周全。
訪問大皇宮的旅行建議:
– 最佳訪問時間:最佳的訪問時間可能是黎明前的清晨,當時氣溫顯著下降,使四處行走更加輕鬆。
– 交通:公共交通選項存在,但可能無法直接到達大皇宮;建議考慮搭乘計程車。
– 餐飲選擇:大皇宮附近並沒有許多用餐設施,但當地的小吃攤提供美味的餐點。
– 着裝指南:雖然並非強制要求,但穿著傳統泰國服裝(如沙龍)能增添文化體驗。然而,短褲或褲子在膝蓋以上是被允許的。
– 安全措施:遊客必須遵循標示為「禁止拍照」等的限制區域標誌。隨身攜帶身份證明文件以備不時之需。
遵循這些指導方針,你的旅行將無疑增強對泰國豐富歷史背景的理解,並提升個人享受!
Hugging Face強調,其最新的視覺語言模型在所有現有的變壓器模型中擁有“最佳的內存使用”。該公司解釋道:“這使其能夠在設備上高效運行,例如在筆記本電腦上。”
結論
SmolVLM的推出,使得多模態AI技術在邊緣設備上的應用更具可行性,這不僅有助於降低運算成本,也使得用戶可以更方便地進行自定義操作。從某種程度上來說,這標誌著AI技術更廣泛的普及化趨勢。隨著小型開放模型的增長,未來的應用可能會更加多元化,並且會在特定場景中發揮更大的作用。但同時,對於這些技術的負責任使用也顯得尤為重要,尤其是在防範不當使用和保障隱私方面,這需要業界和社會共同努力。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。