阿里巴巴推出開源 Qwen3 模型,超越 OpenAI 和 DeepSeek
中國電子商務巨頭阿里巴巴的 Qwen 團隊近日正式推出了一系列開源 AI 大型語言多模態模型,名為 Qwen3,據稱是開放模型中最先進的之一,並接近於 OpenAI 和谷歌等專有模型的性能。
Qwen3 系列包括兩個「專家混合」模型和六個密集模型,總共八個新模型。「專家混合」方法涉及將多種不同專長的模型組合在一起,只有在模型內部設置中需要時才激活相關模型(稱為參數)。這種方法是由開源法國 AI 初創公司 Mistral 普及的。
根據團隊的說法,參數為 235 億的 Qwen3 版本,代號為 A22B,在關鍵的第三方基準測試中優於 DeepSeek 的開源 R1 和 OpenAI 的專有 o1,包括 ArenaHard(包含 500 個用戶問題,涉及軟件工程和數學)和接近於新的專有 Google Gemini 2.5-Pro 的性能。
總體而言,基準數據將 Qwen3-235B-A22B 定位為最強大的公開可用模型之一,相對於主要行業產品實現同等或更優的性能。
混合(推理)理論
————————-
Qwen3 模型經過訓練,提供所謂的「混合推理」或「動態推理」能力,允許用戶在快速、準確的響應和更耗時、計算密集的推理步驟之間切換(類似於 OpenAI 的「o」系列),適用於科學、數學、工程和其他專業領域中更困難的查詢。這是一種由 Nous Research 和其他 AI 初創公司及研究團隊開創的方法。
使用 Qwen3,用戶可以通過 Qwen Chat 網站上的按鈕或在本地或通過 API 部署模型時嵌入特定提示(例如 `/think` 或 `/no_think`)來啟用更強大的「思考模式」,從而根據任務複雜性靈活使用。
用戶現在可以跨多個平台(如 Hugging Face、ModelScope、Kaggle 和 GitHub)訪問和部署這些模型,也可以通過 Qwen Chat 網頁界面和移動應用程序直接與它們交互。發布內容包括混合專家模型和密集模型,均可在 Apache 2.0 開源許可下使用。
在我短暫使用 Qwen Chat 網站的過程中,它能夠相對快速地生成圖像,並具有不錯的提示遵守性 – 特別是在將文本原生融入圖像並匹配風格時。然而,它經常提示我登錄,並受到通常的中國內容限制(例如禁止與天安門廣場抗議相關的提示或響應)。
除了混合專家模型外,Qwen3 還包括不同規模的密集模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。
這些模型在大小和架構上有所不同,為用戶提供了滿足不同需求和計算預算的選項。
Qwen3 模型還顯著擴展了多語言支持,現在覆蓋了 119 種語言和方言,涵蓋了主要的語言家族。這擴大了模型的潛在應用範圍,使其在全球範圍內的研究和部署成為可能,適用於各種語言環境。
模型訓練和架構
——————————-
就模型訓練而言,Qwen3 相較於其前身 Qwen2.5 有了顯著的提升。預訓練數據集的大小增加了一倍,達到約 36 萬億個 token。
數據來源包括網絡爬蟲、PDF 樣式文檔提取和利用以前的 Qwen 模型生成的合成內容,重點關注數學和編碼。
訓練流程包括三階段預訓練過程,隨後是四階段後訓練優化,以實現混合思考和非思考能力。訓練改進使得 Qwen3 的密集基礎模型的性能與更大規模的 Qwen2.5 模型相匹配或超越。
部署選項多樣化。用戶可以使用 SGLang 和 vLLM 等框架集成 Qwen3 模型,這兩個框架都提供了與 OpenAI 兼容的端點。
對於本地使用,建議使用 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等選項。此外,對模型的代理能力感興趣的用戶可以探索 Qwen-Agent 工具包,該工具包簡化了工具調用操作。
Qwen 團隊成員 Junyang Lin 在 X 上評論說,構建 Qwen3 涉及解決關鍵但不那麼引人注目的技術挑戰,例如穩定地擴展強化學習、平衡多領域數據以及在不犧牲質量的情況下擴展多語言性能。
林也表示,該團隊正在將重點轉向訓練能夠進行現實任務的長視野推理代理。
對企業決策者的意義
——————————————–
工程團隊可以在數小時內將現有的 OpenAI 兼容端點指向新模型,而不是數周。MoE 檢查點(235B 參數,22B 活躍,30B 參數,3B 活躍)提供了與 GPT-4 類推理能力,成本大致相當於 20-30B 密集模型的 GPU 內存成本。
官方 LoRA 和 QLoRA 掛鉤允許在不向第三方供應商發送專有數據的情況下進行私有微調。
從 0.6B 到 32B 的密集變體使得在筆記本電腦上原型設計變得容易,並擴展到多個 GPU 集群,而無需重寫提示。
在本地運行權重意味著所有提示和輸出都可以被記錄和檢查。MoE 的稀疏性減少了每次調用的活躍參數數量,從而降低了推理攻擊面。
Apache-2.0 許可證消除了基於使用的法律障礙,但組織仍應審查使用中國供應商訓練的模型的出口管制和治理影響。
然而,它也為其他中國玩家(包括 DeepSeek、騰訊和字節跳動)以及眾多不斷增長的北美模型(如 OpenAI、谷歌、微軟、Anthropic、亞馬遜、Meta 等)提供了可行的替代方案。許可證的 Apache 2.0 許可證 – 允許無限制的商業使用 – 也是對其他開源玩家(如 Meta,其許可證更具限制性)的重大優勢。
這進一步表明,AI 供應商之間提供更強大、更易於訪問的模型的競賽仍在激烈進行中,而精明的組織應努力保持靈活性,開放評估這些新模型,以應用於其 AI 代理和工作流程。
展望未來
————-
Qwen 團隊將 Qwen3 不僅定位為漸進式改進,還視為朝向未來的人工通用智能(AGI)和人工超智能(ASI)目標的重要一步,後者是比人類更智能的 AI。
Qwen 的下一階段計劃包括進一步擴大數據和模型規模,延長上下文長度,拓寬模態支持,並增強具有環境反饋機制的強化學習。
隨著大規模 AI 研究的格局不斷演變,Qwen3 在可訪問許可證下的開放權重發布標誌著另一個重要的里程碑,降低了研究人員、開發人員和組織使用最先進的大型語言模型的門檻。
作為編輯,我認為阿里巴巴的 Qwen3 模型是 AI 領域的一個重大突破,具有廣泛的應用前景和巨大的潛力。然而,企業在採用該模型時也需要謹慎考慮相關的風險和挑戰。同時,政府和監管機構也需要關注 AI 發展的倫理和監管問題,以確保 AI 技術的健康發展。