小米首個推理大模型MiMo開源稱比OpenAI、阿里Qwen強

2025-04-30 15:53 聯合報／記者林宸誼／即時報導

小米集團30日宣布，開源首個專為推理而生的大模型「Xiaomi MiMo」。（路透資料照）

小米集團30 日宣布，開源首個專為推理而生的大模型「Xiaomi MiMo」，聲稱憑藉僅7B的參數規模，超越了 OpenAI 的閉源推理模型o1-mini，以及阿里Qwen更大規模的開源推理模型QwQ-32B-Preview。

AI競爭日趨白熱化，本周阿里29日發布Qwen 3，特斯拉執行長馬斯克（Elon Musk）同日官宣Grok 3.5。而先前消息傳出，小米正在建設萬卡GPU集群，並引入頂尖AI人才，顯示出對大模型領域的全面投入。

華爾街見聞報導，Xiaomi MiMo這款模型最引人注目之處在於，在數學推理（AIME 24-25）和代碼競賽（LiveCodeBench v5）公開測評集上，MiMo僅用7B的參數規模，超越了OpenAI的閉源推理模型o1-mini和阿里 Qwen更大規模的開源推理模型QwQ-32B-Preview。

在強化學習（RL）方面，MiMo-7B 的潛力也超越了經典的開源32B模型。隨著DeepSeek-R1的推出，業界掀起了強化學習的共創潮流，DeepSeek-R1-Distill-7B和Qwen2.5-32B成為廣泛使用的起步模式。在相同的RL訓練數據條件下，MiMo-7B在數學和程式碼領域的強化學習能力表現特別突出。

MiMo推理能力提升，得益於預訓練、後訓練階段的多層面創新。在預訓練階段，模型透過挖掘豐富的推理語料，合成了約200B tokens的推理數據，並進行了三階段訓練，以逐步提升訓練難度，總訓練量達到25T的tokens。

在後訓練階段，MiMo採用高效穩定的強化學習演算法和框架，提出了「Test Difficulty Driven Reward」來緩解獎勵稀疏（sparse reward，指智能體須等長時間才能收到獎勵，使學習過程變得困難）的問題，並引入「Easy Data Re-Sampling」策略以穩定RL訓練。同時設計了Seamless Rollout系統，讓RL訓練加速2.29倍，驗證加速1.96 倍。

小米表示，MiMo計畫是由新成立的「小米大模型Core團隊」進行的初步嘗試。儘管2025年似乎是大模型發展的後半程，但小米相信AGI的旅程依然漫長，團隊將繼續從務實創新出發，勇敢探索未知，致力於突破智慧的邊界，回應每一次好奇。

小米董事長雷軍曾親自出馬，開出人民幣千萬年薪的條件，挖角被譽為「AI 天才少女」的95後羅福莉，領導小米 AI大模型團隊。羅福莉是陸產大模型DeepSeek「DeepSeek-V2」關鍵開發者之一。

DeepSeek 團隊推理