六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

阿里巴巴Qwen:輕量級AI模型,消費級設備也能跑!

阿里巴巴推出Qwen2.5-Omni-3B模型:可在消費者電腦上運行的多模態AI模型

中國電商和雲計算巨頭阿里巴巴近日發布了Qwen2.5-Omni-3B,一款輕量級的多模態AI模型,設計可在消費者級硬體上運行,無需犧牲廣泛的功能性,支援文字、音頻、圖像和視頻輸入。

Qwen2.5-Omni-3B是Qwen團隊旗艦7億參數模型的縮減版,僅有3億參數,但仍保留了超過90%的多模態性能,並實現了文字和語音的即時生成。

該模型的顯著改進在於GPU內存效率,處理長上下文輸入(25,000個token)時,VRAM使用量減少了50%以上。優化設置後,內存消耗從60.2 GB(7億參數模型)降至28.2 GB(3億參數模型),使得該模型可以在高-end桌面電腦和筆記本電腦上部署,而無需大型專用GPU集群或工作站。

開發人員表示,該模型通過Think-Talker設計和自定義位置嵌入方法TMRoPE實現了這一目標,後者可以同步理解視頻和音頻輸入。

然而,該模型的授權條款規定僅限研究使用,企業不能在未獲得阿里巴巴Qwen團隊單獨授權的情況下,將該模型用於構建商業產品。

該模型的發布滿足了對更多可部署多模態模型的迫切需求,性能基準測試顯示其與同一系列中更大的模型相比具有競爭力。

該模型現已可在以下平台免費下載:

* Hugging Face
* GitHub
* ModelScope

開發人員可以使用Hugging Face Transformers、Docker容器或阿里巴巴的vLLM實現將該模型集成到其流程中。該模型還支持FlashAttention 2和BF16精度優化,以提高速度和降低內存消耗。

基準測試結果顯示,該模型的性能即使與參數更大的模型相比也毫不遜色:

| **任務** | **Qwen2.5-Omni-3B** | **Qwen2.5-Omni-7B** |
| — | — | — |
| **OmniBench**(多模態推理) | 52.2 | 56.1 |
| **VideoBench**(音頻理解) | 68.8 | 74.1 |
| **MMMU**(圖像推理) | 53.1 | 59.2 |
| **MVBench**(視頻推理) | 68.7 | 70.3 |
| **Seed-tts-eval test-hard**(語音生成) | 92.1 | 93.5 |

在視頻和語音任務中的狹窄性能差距凸顯了3億參數模型設計的效率,特別是在需要即時交互和輸出質量的領域。

該模型還支持多模態同時輸入,可以即時生成文字和音頻響應。用戶可以選擇兩種內置聲音——Chelsie(女)和Ethan(男)——以適應不同的應用或受眾。

Qwen團隊強調了其工作的開源性質,提供了工具包、預訓練檢查點、API訪問和部署指南,以幫助開發人員快速入門。

該模型的發布也引起了企業技術決策者的關注,對於負責AI開發、協調和基礎設施戰略的決策者來說,Qwen2.5-Omni-3B的發布可能看起來像是一個實際的飛躍。一個緊湊的多模態模型,在運行於24GB消費者級GPU的情況下,仍然能與其7億參數兄弟模型競爭,這在運營可行性方面提供了真正的希望。

然而,與任何開源技術一樣,授權問題也非常重要。在這種情況下,授權在探索和部署之間劃定了明確的界限。

Qwen2.5-Omni-3B模型僅限於非商業用途,根據阿里巴巴雲的Qwen研究許可協議授權。這意味著組織可以評估模型、基準測試或微調用於內部研究目的,但如果要在商業環境中部署,例如面向客戶的應用或貨幣化服務,則必須首先獲得阿里巴巴雲的單獨商業許可。

對於監督AI模型生命周期的專業人員來說,無論是跨客戶環境部署、擴大規模還是將多模態工具集成到現有流程中,這種限制都引入了重要的考慮因素。它可能會將Qwen2.5-Omni-3B的角色從即時部署的解決方案轉變為可行性測試床,用於在決定是否商業授權或尋求替代方案之前,原型設計或評估多模態交互。

那些在協調和運維角色的人仍然可以通過試點該模型來為內部用例找到價值,例如優化流程、構建工具或準備基準,只要它仍然在研究範圍內。數據工程師或安全領導者同樣可以探索該模型,用於內部驗證或質量保證任務,但應謹慎處理涉及專有或客戶數據的生產環境。

真正的結論可能是關於訪問和約束:Qwen2.5-Omni-3B降低了使用多模態AI進行實驗的技術和硬件門檻,但其當前許可證強制實施商業界限。這樣,它為企業團隊提供了一個高性能模型,用於測試想法、評估架構或為做出購買決策提供信息,但保留了生產使用權,僅限於願意與阿里巴巴進行許可討論的人。

在這種情況下,Qwen2.5-Omni-3B不再是一個即插即用的部署選項,而是一個戰略評估工具,一種以較少的資源接近多模態AI的方法,但尚未成為生產用的交鑰匙解決方案。

作為編輯,我認為Qwen2.5-Omni-3B的發布是多模態AI領域的一個重要里程碑。該模型的輕量級設計和高性能使其成為企業和開發人員的有吸引力的選擇。然而,許可限制可能會限制其在商業環境中的部署,需要進一步討論和談判以實現廣泛採用。

此外,我認為該模型的開源性質及其在Hugging Face、GitHub和ModelScope上的可用性將促進開發人員社區的成長和貢獻。這可能會帶來更多的創新和改進,從而推動多模態AI的發展。

總之,Qwen2.5-Omni-3B的發布標誌著多模態AI領域的一個重要步驟,提供了高性能、輕量級的模型,可在消費者級硬體上運行。雖然許可限制可能會限制其商業部署,但該模型的開源性質和可用性將促進創新和貢獻,從而推動該領域的發展。

Chat Icon