阿里巴巴Qwen3揭秘：36兆數據打造超強AI語言模型

zero comment

Ai Finance Tech

阿里巴巴Qwen3訓練揭秘：混合推理大模型如何煉成？

Qwen3預訓練的數據來源有幾強？

Qwen3作為阿里巴巴最新的混合推理大型語言模型（LLM），其訓練基礎建立在一個前所未有的龐大語料庫之上——超過36萬億個token，涵蓋119種語言及方言。相比上一代Qwen2.5的18萬億token，數據量直接翻倍，令Qwen3能吸收更豐富的語言結構、世界知識及專業領域內容。

為了構建這個龐大數據集，阿里巴巴結合了網絡爬蟲資料、經Qwen2.5-VL處理過的PDF技術文檔，確保高質量的技術及學術文本。此外，還利用Qwen2.5-Math及Qwen2.5-Coder自動生成大量數學題解與程式碼片段，大大提升模型在STEM及編程領域的能力。

Qwen3預訓練流程有幾精細？

Qwen3預訓練分為三大階段：

階段一：建立基礎知識
模型以4K-context Transformer架構，在超過30萬億token上進行訓練，這相當於教會模型“識字”，為後續知識打下穩固基礎。

階段二：強化知識密集型能力
數據集重新平衡，重點加入STEM文本、編程挑戰及推理任務，再追加5萬億token，令模型更善於處理學術及技術難題。

階段三：擴展上下文長度
最後一階段以高質量長文檔進行預訓練，將Qwen3的上下文窗口擴展至32K tokens，令其能理解及推理更長的文本，如論文或多步指令。

Qwen3架構創新在哪？

Qwen3同時提供Dense與Mixture-of-Experts（MoE）兩種架構。Dense模型規模由0.6B至32B參數，而MoE版本則只啟動少量專家（如128個中的8個），大幅減少運算量至10%，但效能依然強勁。

在注意力與正則化方面，Qwen3採用每個頭的QK正則化及重新設計的attention bias，提升大模型穩定性，令深度可達94層的Qwen3-235B-A22B都能高效收斂。

Qwen3混合推理怎樣實現？

Qwen3最大特色是“混合推理”：

– 思考模式：啟用chain-of-thought（CoT）推理，將問題分拆成多步邏輯，最後才得出答案。
– 非思考模式：直接快速回應，無需中間推理。用戶可通過`enable_thinking`選項或標籤（如/think、/no_think）切換，針對不同任務靈活調整。

此外，Qwen3可分配“推理預算”，根據任務難度自動調整運算資源，確保複雜問題深度推理，簡單查詢則迅速回應，實現效能與成本的最佳平衡。

Qwen3後訓練流程有幾層？

Qwen3後訓練分四步：

1. CoT冷啟動微調：先用多樣化長鏈推理數據（數學、邏輯、編程）微調模型，激活其顯式推理能力。
2. 規則型強化學習：利用手工設計的獎勵函數，指導模型探索推理路徑，確保產生有條理的中間步驟。
3. 思考模式融合：將推理數據與指令微調數據融合，兼顧深度推理與一般任務執行。
4. 通用強化學習：針對20+通用任務（如格式遵守、代理功能）進行強化學習，修正偏差並提升流暢度。

Qwen3與Qwen2.5有何分別？

Qwen3在多方面大幅超越Qwen2.5：

– 參數規模由最多72B（Dense）升級至235B（MoE）及多種Dense選項。
– 上下文窗口由16K提升至128K tokens。
– 語言覆蓋由29種增至119種語言及方言。
– 推理模式由獨立模型整合為思考/非思考混合模式。
– 兩者均開放權重（Apache 2.0）。

這些升級令Qwen3更靈活、精確及具全球競爭力。

Qwen3如何實現實時部署？

Qwen3不僅訓練強大，還專注於低延遲推理及大規模部署：

– Cerebras硬件加速：Qwen3-32B在Cerebras wafer-scale引擎上，1.2秒內即可完成推理，比同級模型快60倍。
– 雲端部署及API：阿里雲API支援自動擴展GPU集群及推理優化CPU節點，開發者可用LoRA微調，節省資源，降低服務成本。

開發者如何善用Qwen3？

Qwen3以Apache 2.0開源，全球研究及企業開發者可自由採用、改造及擴展模型：

– Dense模型（0.6B、3B、22B、32B）：適合本地部署及邊緣場景，集成簡單。
– MoE模型（235B總參數，22B激活）：雲端高吞吐量服務首選，推理深度及多語能力極強。
– API與本地部署：可選阿里雲API（自動擴展）、自建Docker/Kubernetes（數據合規）、CometAPI統一REST接口。

社群與生態支援

– 開源倉庫：Qwen GitHub提供模型權重、訓練腳本及微調工具。
– 預製集成：支援TensorFlow、PyTorch、LangChain、Hugging Face等熱門平台。
– 技術報告：阿里巴巴已在arXiv公開Qwen3完整技術細節，促進學術交流。

總結與評論：Qwen3的意義與挑戰

Qwen3的誕生標誌著中國自研開源大模型進入新紀元。其龐大的語料庫、多階段預訓練、混合推理模式及MoE架構，讓它不僅追趕國際一線，更在多語、多領域、低成本部署等方面展現出差異化優勢。

但值得深思的是，Qwen3這種極度依賴超大規模數據及算力的發展路線，是否可持續？未來AI模型的競爭，會否從“誰數據多、誰算力強”轉向“誰更懂用有限資源做出智能”？另外，Qwen3的開源策略，會否令中國AI生態與全球更緊密融合，還是會加劇模型同質化與數據版權等新問題？

香港的開發者和企業，應該如何看待這波AI開源浪潮？一方面，Qwen3為本地創新提供了新平台和工具，降低了技術門檻；但同時，若只靠“拿來主義”而缺乏原創應用場景和數據積累，本地AI產業很難在國際上突圍。最終，真正的競爭力，或許仍在於能否用這些開源基礎，結合香港獨特的多語文化、金融科技、智慧城市等需求，打造出屬於我們的AI解決方案。

Qwen3的故事，才剛剛開始。你又準備好怎樣參與這場AI新浪潮？

Qwen3

Download TXT

#hybridreasoning #qwen3training alibaba alicloud llm

阿里巴巴Qwen3揭秘：36兆數據打造超強AI語言模型

chatgpt

📣 即刻用 Google Workspace｜唔使vpn都能享用 Google AI Pro

阿里巴巴Qwen3揭秘：36兆數據打造超強AI語言模型

chatgpt

Related Articles

Davis Commodities股價飆升擬拓展中國市場

CIMG增發股票引投資者擔憂股價下跌

創意公司AI最大敵人係恐懼唔係技術

📣 即刻用 Google Workspace｜唔使vpn都能享用 Google AI Pro