小米首個推理大模型MiMo開源 稱比OpenAI、阿里Qwen強

小米集團30 日宣布,開源首個專為推理而生的大模型「Xiaomi MiMo」,聲稱憑藉僅7B的參數規模,超越了 OpenAI 的閉源推理模型o1-mini,以及阿里Qwen更大規模的開源推理模型QwQ-32B-Preview。
AI競爭日趨白熱化,本周阿里29日發布Qwen 3,特斯拉執行長馬斯克(Elon Musk)同日官宣Grok 3.5。而先前消息傳出,小米正在建設萬卡GPU集群,並引入頂尖AI人才,顯示出對大模型領域的全面投入。
華爾街見聞報導,Xiaomi MiMo這款模型最引人注目之處在於,在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評集上,MiMo僅用7B的參數規模,超越了OpenAI的閉源推理模型o1-mini和阿里 Qwen更大規模的開源推理模型QwQ-32B-Preview。
在強化學習(RL)方面,MiMo-7B 的潛力也超越了經典的開源32B模型。隨著DeepSeek-R1的推出,業界掀起了強化學習的共創潮流,DeepSeek-R1-Distill-7B和Qwen2.5-32B成為廣泛使用的起步模式。在相同的RL訓練數據條件下,MiMo-7B在數學和程式碼領域的強化學習能力表現特別突出。
MiMo推理能力提升,得益於預訓練、後訓練階段的多層面創新。在預訓練階段,模型透過挖掘豐富的推理語料,合成了約200B tokens的推理數據,並進行了三階段訓練,以逐步提升訓練難度,總訓練量達到25T的tokens。
在後訓練階段,MiMo採用高效穩定的強化學習演算法和框架,提出了「Test Difficulty Driven Reward」來緩解獎勵稀疏(sparse reward,指智能體須等長時間才能收到獎勵,使學習過程變得困難)的問題,並引入「Easy Data Re-Sampling」策略以穩定RL訓練。同時設計了Seamless Rollout系統,讓RL訓練加速2.29倍,驗證加速1.96 倍。
小米表示,MiMo計畫是由新成立的「小米大模型Core團隊」進行的初步嘗試。儘管2025年似乎是大模型發展的後半程,但小米相信AGI的旅程依然漫長,團隊將繼續從務實創新出發,勇敢探索未知,致力於突破智慧的邊界,回應每一次好奇。
小米董事長雷軍曾親自出馬,開出人民幣千萬年薪的條件,挖角被譽為「AI 天才少女」的95後羅福莉,領導小米 AI大模型團隊。羅福莉是陸產大模型DeepSeek「DeepSeek-V2」關鍵開發者之一。
延伸閱讀
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言