小米万亿模型全面开源:MIT 协议、1M 上下文,但还是打不过 DeepSeek

今天,小米开源了 MiMo-V2.5 和 MiMo-V2.5-Pro 两款模型:MiMo-V2.5 基础模型提供原生多模态能力,而 MiMo-V2.5-Pro 则是专门为“长周期一致性”和复杂软件工程设计的。

小米采用了宽松、对企业友好的 MIT License,这意味着模型适合被用于商业应用的生产环境。用户可以按需修改模型,并根据自身需要,在本地或虚拟私有云上运行。

在 GDPVal-AA(Elo)基准测试中,Pro 模型取得了 1581 分,超过了 Kimi K2.6 和 GLM 5.1 等竞争对手。

小米还进一步公布了 V2.5-Pro 自动完成若干高复杂度任务的数据:

  • 用 Rust 实现 SysY 编译器:模型从零开始实现了一个完整编译器,包括 lexer、parser 和 RISC-V 汇编后端,用时 4.3 小时。整个过程横跨 672 次工具调用,在隐藏测试集中取得了 233/233 的满分。这个任务通常需要计算机科学专业学生花费数周时间完成。
  • 全功能视频编辑器:模型用时 11.5 小时,进行了 1868 次工具调用,最终生成了一个 8192 行的桌面应用,具备多轨时间线和导出流水线。
  • 模拟 EDA 优化:在一项研究生级别的工程任务中,模型优化了 TSMC 180nm 工艺下的 Flipped-Voltage-Follower(FVF-LDO)稳压器。通过不断迭代 ngspice 仿真循环,模型将线性调整率等指标相较初始尝试提升了 22 倍。

小米用这些实验来凸显 V2.5-Pro 的一种 “harness awareness”,也就是“脚手架意识”。模型会主动管理自己的记忆,并塑造自身上下文,以便在数千次连续工具调用中维持一致性。

拼 token 效率,但 DeepSeek 价格依然最能打 

根据小米公布的基准测试,这些模型被认为是目前适合 agentic “claw” 任务的高效模型之一。

所谓 “claw” 任务,指的是为 OpenClaw、NanoClaw、Hermes Agent 这类系统提供支持。用户可以通过第三方消息应用直接与这些智能体沟通,让它们代替人类用户去完成任务,比如制作和发布营销内容、运营账号、整理邮件、安排日程等等。

随着 OpenClaw 等被广泛应用,token 消耗量也迅速爆发,越来越多服务开始转向按使用量计费。这时,“为用户省钱”这一点变得非常关键。

微软的 GitHub Copilot 今天宣布正在转向基于用量的计费方式,也就是按照人类用户实际消耗的每个 token 收费,而不是像 Anthropic 那样施加速率限制,或者像 OpenAI 那样提供“自助餐式”的无限量订阅。这让更多人意识到,AI 推理补贴时代结束了。

过去大家一个月用 20 美元、100 美元、200 美元就能跑大量 Claude、OpenAI 高端模型完成工作,本就不可能长期持续。有用户直言,这很像 ZIRP 时代互联网公司的增长策略:先烧钱补贴、快速获客,等用户习惯和粘性形成后,再开始正式变现。

而对于用户来说,现在编程成本从固定订阅变成不确定的 token 消耗,这个账可能越来越难算。 Agent 编程不是普通聊天,真实成本来自长上下文、反复工具调用、缓存命中率和模型倍率等。

这个背景下,小米为这些模型提供了相当有竞争力的价格,覆盖国内和国际市场。

对海外开发者来说,高性能的 MiMo-V2.5-Pro 在最高 256K 上下文窗口内,缓存未命中时每百万输入 token 价格为 1.00 美元,输出价格为 3.00 美元。对于 256K 到 1M token 之间的超长上下文任务,价格会翻倍:输入为 2.00 美元,输出为 6.00 美元。

单纯模型定价角度看,国内模型横向比较时,MiMo 价格并不便宜。

部分模型海内外价格不完全统计,来源:AI 前线

不过,实际的整体使用价格还是要结合 token 效率来看。Artificial Analysis 之前的测评显示,在同一套 Intelligence Index 评测中,不同模型的 token 消耗差异巨大。DeepSeek V4 Flash、GPT-5.4 mini、Claude Sonnet 4.6 等模型动辄消耗 2 亿级输出 token,且大部分是推理 token;而 MiMo-V2.5-Pro 约为 9200 万,GPT-5.5 xhigh 约为 7500 万,Gemini 3.1 Pro Preview 甚至只有 5700 万。

而从小米发布的 ClawEval 基准测试图也可以看到,MiMo-V2.5 和尤其是 Pro 版本,在完成基准测试中的 claw 任务时表现很强,同时消耗的 token 又最少。

根据测试,在 ClawEval 上,V2.5-Pro 以每条轨迹约 7 万 token 的消耗,取得了 64% 的 Pass^3 成绩。而在能力水平相近的情况下,这比 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4 少用了大约 40% 到 60% 的 token。

“MiMo V2.5 Pro 有一点很不错:它似乎是目前 token 效率最高的开源模型。它会思考,但不会总是陷入那种很长的“等等,好像不对”的循环。很喜欢这一点。”有网友评价道。

“更高的智能,并不只是拿到更高的分数。它还意味着,用更少的 token 达到同样的能力水平。”官方表示。值得注意的是,小米大模型负责人罗福莉就曾直言大模型公司“价格战是陷阱”。

她认为,如果用户把精力浪费在低质量的 Agent 框架、极不稳定且缓慢的推理服务、以及为降本而被迫降级的模型上,最终发现自己仍然什么都做不成,这对用户体验和留存率来说,就是一个恶性循环。而真正的出路不是更便宜的 token,而是协同进化,即“更高 token 效率的 Agent 框架”叠加“更强大高效的模型”。

不过,小米当前模型定价依然处于较低位置。小米所有模型现在还限时免收缓存写入费用,同时整个 MiMo-V2.5-TTS 套件也完全免除费用,其中包括专门的语音克隆和语音设计功能。这种定价逻辑显然是为了加速从简单聊天应用,转向持久、长周期智能体的过程,后者可以以传统前沿模型小部分的成本运行。

此外,小米还推出了重新设计后的 “Token Plan”,目前分为四档:

  • Lite “Starter Pack” 提供 7.2 亿 credits,年费 63.36 美元。
  • Standard 档提供 24 亿 credits,年费 168.96 美元。
  • Pro 档提供 84 亿 credits,年费 528.00 美元,面向企业使用场景。
  • Max 档面向高强度编码爱好者,提供 192 亿 credits,年费 1056.00 美元。

除了 credit 配额外,所有套餐还包括更优惠的 API 价格、离峰调用 20% 折扣,以及对 Cursor、Zed、Claude Code 等热门编码工具的 “Day-0” 支持。

此外,开源的同时,罗福莉宣布提供 100 万亿免费 token,目前已经有用户晒出入选邮件。

网友评价 

当前看,小米模型获得了一些不错的评价。

“这个模型太棒了,是我目前最喜欢的,比我使用的 Kimi 2.6 和 GLM 都好。”网友“Someone1Somewhere1”表示。

该开发者介绍,自己在工作和个人爱好上都会用到它们。“工作方面主要是做数据分析、整理用于演示文稿的数据,包括字体排版,以及在大量给定数据中查找一些小众信息。我个人爱好游戏开发。这方面包括用 Python 写代码、处理一些复杂数学问题、进行创意写作,分析我自己写下的大量概念、技能设定和主题,然后帮我根据特定素材进一步组织和打磨,比如宗教礼仪、古代神话、民间传说、creepypasta 这类内容。”

不过,有用户指出评价是“绝对不算出色”,MiMo-V2.5 Pro 思考时间太长了。

还有开发者表示,“DeepSeek 也有它的用途,但它并不能满足我的需求。我用 Mimo 进行构思、研究、假设检验,以及梳理要开发的内容和整体思路。然后,在实现阶段,我使用 GLM 和 Kimi。Mimo 非常擅长实施前的沟通,集思广益并对想法进行压力测试。”

都是 MoE 架构,但训练路线不同 

MiMo-V2.5 的核心稀疏专家混合架构,总参数规模达到 310B,激活参数 15B。

V2.5 被训练来做跨模态推理,通过平衡局部注意力和全局注意力来维持多模态感知能力。

根据小米博客文章,MiMo-V2.5 遵循了严格的五阶段演进路线:

  • 文本预训练,基于 48 万亿 token 构建庞大的语言主干;
  • Projector Warmup,将自研音频和视觉编码器与语言核心对齐;
  • 多模态预训练,在高质量跨模态数据上进行规模化训练;
  • Agentic 后训练,逐步将上下文窗口从 32K 扩展到 1M token;
  • RL 和 MOPD:使用强化学习和多模态偏好优化来提升真实世界推理和感知能力。

V2.5-Pro 则是一个总参数规模为 1.02 T 的 MoE 模型,活跃参数为 42B。它采用了 MiMo-V2-Flash 中引入的混合注意力架构和 3 层多 Token 预测(MTP)设计,支持最高 100 万 token 的上下文长度。

V2.5-Pro 采用混合注意力架构,局部滑动窗口注意力和全局注意力以 6:1 的比例交错排列,窗口大小为 128 个 token。

这种设计可以在通过可学习的 attention sink bias 维持长上下文性能的同时,将 KV-cache 存储量减少近 7 倍。V2.5-Pro 可以“快速扫过”绝大部分上下文,同时对当前目标最相关的 15% 数据施加高密度注意力。对于调试大型代码仓库等任务来说,这是一个关键特性。

不过,与同样使用混合注意力机制的 DeepSeek-V4 比,V2.5-Pro 更接近主流推理框架可部署方案,架构创新相对更工程化,attention 压缩不如 DeepSeek 激进。DeepSeek-V4 更偏自研系统栈和底层 kernel 优化,系统复杂度高、部署门槛可能更高。

MTP 方面,V2.5-Pro 还配备三个使用 dense FFN 的轻量级 MTP 模块。这使得推理阶段的输出速度提升至约 3 倍,同时也有利于加速强化学习训练中的 rollout。

MiMo-V2.5-Pro 使用 27T tokens 进行训练,采用 FP8 混合精度和原生 32K 序列长度,上下文窗口最高支持 100 万 tokens。其训练重点不再是感官对齐,而是转向扩展后训练计算量。这一过程旨在注入 “harness awareness”,即“脚手架意识”。模型会被专门训练,以便在 Claude Code 或 OpenCode 这类自主智能体脚手架中,管理自己的记忆和上下文。

最后,虽然两款模型都会经历强化学习(RL)和多模态偏好优化(MOPD),但这些阶段的目标不同:

对于 MiMo-V2.5,RL 阶段用于加强感知能力和多模态推理能力。

对于 MiMo-V2.5-Pro,RL 更聚焦于 agentic 场景中的指令遵循,确保模型能够遵守深藏在超长上下文中的细微要求,并在自主执行过程中从错误中优雅恢复。这带来了 Pro 模型的“自我纠错”纪律性。

在实际体验中,有用户指出,同样是一份数据处理脚本的审查,有一处不会报错的隐秘 bug,两个模型都查不出来,但是 GPT 和 Claude 都能够稳定地发现它。不过 DeepSeek v4 Pro 告诉它检查哪个部分后,它能够发现问题,MIMO V2.5 Pro 做不到,需要明确的错误反馈。

“我感觉 MIMO 的这个模型推理预算被限制很厉害,又或者可能没有做过太多长链推理的训练。没有明确的错误反馈,靠它自己凭空思考表现不太好。”该用户指出。

此外还有用户提到,在免费期过后,小米模型使用占比一直在下降,加上近期罗福莉露出频繁,“现在小米公司做的一切,感觉就是为了营销它的产品,它的 Token。”

参考链接:

https://mimo.xiaomi.com/mimo-v2-5-pro

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro

https://venturebeat.com/ai/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks

本文来自微信公众号“AI前线”,整理:褚杏娟 ,36氪经授权发布。

发布时间:2026-04-28 18:13