超越OpenAI-o1模型？阿里通義千問發布並開源Qwen3

2025-04-29 10:19 聯合報／記者謝守真／即時報導

阿里巴巴通義千問29日凌晨發布新一代Qwen3系列人工智慧（AI）模型，並稱新版模型參數量僅DeepSeek-R1的三分之一，成本大幅下降，同時，可與美國Google和OpenAI提供的最佳模型相比，在某些情況甚至優於對手。（路透）

阿里巴巴通義千問29日凌晨發布新一代Qwen3系列人工智慧（AI）模型。通義千問聲稱，新版模型參數量僅DeepSeek-R1的三分之一，成本大幅下降，同時，可與美國Google和OpenAI提供的最佳模型（如OpenAI-o1等模型）相比，在某些情況下甚至優於競爭對手。

據中國證券報，阿里巴巴開源新一代通義千問模型Qwen3是「混合推理模型」，「快思考」與「慢思考」集成進同一個模型，對簡單需求可低算力「秒回」答案，適用於對速度要求高於深度的簡單問題。而對複雜問題可多步驟「深度思考」，節省算力消耗。

港媒《信報》指出，新版Qwen3包括2個採用混合專家（MoE）模型和6個Dense模型，參數量從6億個到2,350億個。與DeepSeek-R1、OpenAI o1及o3-mini、馬斯克的Grok 3和谷歌Gemini 2.5 Pro等其他頂級模型比較，旗艦模型Qwen3-235B-A22B在編碼、數學、通用能力等基準評估中，取得具競爭力的結果。

小型MoE模型Qwen3-30B-A3B的活化參數量是QwQ-32B的10%，表現更勝一籌，甚至像Qwen3-4B這樣的小模型，也能匹敵Qwen2.5-72B-Instruct的表現。而6個Dense模型也已開源，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B，均在Apache 2.0許可下開源。

至於性能方面，Qwen3預訓練資料量達36T ，並在後訓練階段進行多輪強化學習，在推理、指令遵循、工具調用、多語言能力等方面均有增強。在效能提升的同時，Qwen3部署成本下降，僅需4張H20即可部署Qwen3滿血版。

上述新版Qwen3系列模型採用寬鬆的Apache2.0協定開源，首次支援119種語言，全球開發者、研究機構和企業均可免費在魔搭社群、HuggingFace等平台下載模式並商用，也可以透過阿里雲百煉調用Qwen3的API服務。

通義千問並表示，Qwen3模型推理能力大幅提升，在數學、程式碼和邏輯推理等評測中，達到同規模業界SOTA水準。

此前，有消息在4月初時指出，阿里將在本（4）月第二周發布新模型Qwen3，這將是阿里在2025年上半年最重要的模型產品。知情人士指出，2024年第4季，業內已經意識到模型的推理能力很重要，但還不能說是最重要的方向，DeepSeek火爆後，推理能力已經成為繞不開的關鍵能力。DeepSeek-R1發布後，阿里雲基礎模型團隊把策略中心進一步向模型的推理能力傾斜。

DeepSeek OpenAI 推理