小米万亿模型全面开源：MIT 协议、1M 上下文，但还是打不过 DeepSeek-新糖宝胶囊官方网站

今天，小米开源了 MiMo-V2.5 和 MiMo-V2.5-Pro 两款模型：MiMo-V2.5 基础模型提供原生多模态能力，而 MiMo-V2.5-Pro 则是专门为“长周期一致性”和复杂软件工程设计的。

小米采用了宽松、对企业友好的 MIT License，这意味着模型适合被用于商业应用的生产环境。用户可以按需修改模型，并根据自身需要，在本地或虚拟私有云上运行。

在 GDPVal-AA（Elo）基准测试中，Pro 模型取得了 1581 分，超过了 Kimi K2.6 和 GLM 5.1 等竞争对手。

小米还进一步公布了 V2.5-Pro 自动完成若干高复杂度任务的数据：

用 Rust 实现 SysY 编译器：模型从零开始实现了一个完整编译器，包括 lexer、parser 和 RISC-V 汇编后端，用时 4.3 小时。整个过程横跨 672 次工具调用，在隐藏测试集中取得了 233/233 的满分。这个任务通常需要计算机科学专业学生花费数周时间完成。
全功能视频编辑器：模型用时 11.5 小时，进行了 1868 次工具调用，最终生成了一个 8192 行的桌面应用，具备多轨时间线和导出流水线。
模拟 EDA 优化：在一项研究生级别的工程任务中，模型优化了 TSMC 180nm 工艺下的 Flipped-Voltage-Follower（FVF-LDO）稳压器。通过不断迭代 ngspice 仿真循环，模型将线性调整率等指标相较初始尝试提升了 22 倍。

小米用这些实验来凸显 V2.5-Pro 的一种 “harness awareness”，也就是“脚手架意识”。模型会主动管理自己的记忆，并塑造自身上下文，以便在数千次连续工具调用中维持一致性。

拼 token 效率，但 DeepSeek 价格依然最能打

根据小米公布的基准测试，这些模型被认为是目前适合 agentic “claw” 任务的高效模型之一。

所谓 “claw” 任务，指的是为 OpenClaw、NanoClaw、Hermes Agent 这类系统提供支持。用户可以通过第三方消息应用直接与这些智能体沟通，让它们代替人类用户去完成任务，比如制作和发布营销内容、运营账号、整理邮件、安排日程等等。

随着 OpenClaw 等被广泛应用，token 消耗量也迅速爆发，越来越多服务开始转向按使用量计费。这时，“为用户省钱”这一点变得非常关键。

微软的 GitHub Copilot 今天宣布正在转向基于用量的计费方式，也就是按照人类用户实际消耗的每个 token 收费，而不是像 Anthropic 那样施加速率限制，或者像 OpenAI 那样提供“自助餐式”的无限量订阅。这让更多人意识到，AI 推理补贴时代结束了。

过去大家一个月用 20 美元、100 美元、200 美元就能跑大量 Claude、OpenAI 高端模型完成工作，本就不可能长期持续。有用户直言，这很像 ZIRP 时代互联网公司的增长策略：先烧钱补贴、快速获客，等用户习惯和粘性形成后，再开始正式变现。

而对于用户来说，现在编程成本从固定订阅变成不确定的 token 消耗，这个账可能越来越难算。 Agent 编程不是普通聊天，真实成本来自长上下文、反复工具调用、缓存命中率和模型倍率等。

这个背景下，小米为这些模型提供了相当有竞争力的价格，覆盖国内和国际市场。

对海外开发者来说，高性能的 MiMo-V2.5-Pro 在最高 256K 上下文窗口内，缓存未命中时每百万输入 token 价格为 1.00 美元，输出价格为 3.00 美元。对于 256K 到 1M token 之间的超长上下文任务，价格会翻倍：输入为 2.00 美元，输出为 6.00 美元。

单纯模型定价角度看，国内模型横向比较时，MiMo 价格并不便宜。

部分模型海内外价格不完全统计，来源：AI 前线

不过，实际的整体使用价格还是要结合 token 效率来看。Artificial Analysis 之前的测评显示，在同一套 Intelligence Index 评测中，不同模型的 token 消耗差异巨大。DeepSeek V4 Flash、GPT-5.4 mini、Claude Sonnet 4.6 等模型动辄消耗 2 亿级输出 token，且大部分是推理 token；而 MiMo-V2.5-Pro 约为 9200 万，GPT-5.5 xhigh 约为 7500 万，Gemini 3.1 Pro Preview 甚至只有 5700 万。

而从小米发布的 ClawEval 基准测试图也可以看到，MiMo-V2.5 和尤其是 Pro 版本，在完成基准测试中的 claw 任务时表现很强，同时消耗的 token 又最少。

根据测试，在 ClawEval 上，V2.5-Pro 以每条轨迹约 7 万 token 的消耗，取得了 64% 的 Pass^3 成绩。而在能力水平相近的情况下，这比 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4 少用了大约 40% 到 60% 的 token。

“MiMo V2.5 Pro 有一点很不错：它似乎是目前 token 效率最高的开源模型。它会思考，但不会总是陷入那种很长的“等等，好像不对”的循环。很喜欢这一点。”有网友评价道。

“更高的智能，并不只是拿到更高的分数。它还意味着，用更少的 token 达到同样的能力水平。”官方表示。值得注意的是，小米大模型负责人罗福莉就曾直言大模型公司“价格战是陷阱”。

她认为，如果用户把精力浪费在低质量的 Agent 框架、极不稳定且缓慢的推理服务、以及为降本而被迫降级的模型上，最终发现自己仍然什么都做不成，这对用户体验和留存率来说，就是一个恶性循环。而真正的出路不是更便宜的 token，而是协同进化，即“更高 token 效率的 Agent 框架”叠加“更强大高效的模型”。

不过，小米当前模型定价依然处于较低位置。小米所有模型现在还限时免收缓存写入费用，同时整个 MiMo-V2.5-TTS 套件也完全免除费用，其中包括专门的语音克隆和语音设计功能。这种定价逻辑显然是为了加速从简单聊天应用，转向持久、长周期智能体的过程，后者可以以传统前沿模型小部分的成本运行。

此外，小米还推出了重新设计后的 “Token Plan”，目前分为四档：

Lite “Starter Pack” 提供 7.2 亿 credits，年费 63.36 美元。
Standard 档提供 24 亿 credits，年费 168.96 美元。
Pro 档提供 84 亿 credits，年费 528.00 美元，面向企业使用场景。
Max 档面向高强度编码爱好者，提供 192 亿 credits，年费 1056.00 美元。

除了 credit 配额外，所有套餐还包括更优惠的 API 价格、离峰调用 20% 折扣，以及对 Cursor、Zed、Claude Code 等热门编码工具的 “Day-0” 支持。

此外，开源的同时，罗福莉宣布提供 100 万亿免费 token，目前已经有用户晒出入选邮件。

网友评价

当前看，小米模型获得了一些不错的评价。

“这个模型太棒了，是我目前最喜欢的，比我使用的 Kimi 2.6 和 GLM 都好。”网友“Someone1Somewhere1”表示。

该开发者介绍，自己在工作和个人爱好上都会用到它们。“工作方面主要是做数据分析、整理用于演示文稿的数据，包括字体排版，以及在大量给定数据中查找一些小众信息。我个人爱好游戏开发。这方面包括用 Python 写代码、处理一些复杂数学问题、进行创意写作，分析我自己写下的大量概念、技能设定和主题，然后帮我根据特定素材进一步组织和打磨，比如宗教礼仪、古代神话、民间传说、creepypasta 这类内容。”

不过，有用户指出评价是“绝对不算出色”，MiMo-V2.5 Pro 思考时间太长了。

还有开发者表示，“DeepSeek 也有它的用途，但它并不能满足我的需求。我用 Mimo 进行构思、研究、假设检验，以及梳理要开发的内容和整体思路。然后，在实现阶段，我使用 GLM 和 Kimi。Mimo 非常擅长实施前的沟通，集思广益并对想法进行压力测试。”

都是 MoE 架构，但训练路线不同

MiMo-V2.5 的核心稀疏专家混合架构，总参数规模达到 310B，激活参数 15B。

V2.5 被训练来做跨模态推理，通过平衡局部注意力和全局注意力来维持多模态感知能力。

根据小米博客文章，MiMo-V2.5 遵循了严格的五阶段演进路线：

文本预训练，基于 48 万亿 token 构建庞大的语言主干；
Projector Warmup，将自研音频和视觉编码器与语言核心对齐；
多模态预训练，在高质量跨模态数据上进行规模化训练；
Agentic 后训练，逐步将上下文窗口从 32K 扩展到 1M token；
RL 和 MOPD：使用强化学习和多模态偏好优化来提升真实世界推理和感知能力。

V2.5-Pro 则是一个总参数规模为 1.02 T 的 MoE 模型，活跃参数为 42B。它采用了 MiMo-V2-Flash 中引入的混合注意力架构和 3 层多 Token 预测（MTP）设计，支持最高 100 万 token 的上下文长度。

V2.5-Pro 采用混合注意力架构，局部滑动窗口注意力和全局注意力以 6:1 的比例交错排列，窗口大小为 128 个 token。

这种设计可以在通过可学习的 attention sink bias 维持长上下文性能的同时，将 KV-cache 存储量减少近 7 倍。V2.5-Pro 可以“快速扫过”绝大部分上下文，同时对当前目标最相关的 15% 数据施加高密度注意力。对于调试大型代码仓库等任务来说，这是一个关键特性。

不过，与同样使用混合注意力机制的 DeepSeek-V4 比，V2.5-Pro 更接近主流推理框架可部署方案，架构创新相对更工程化，attention 压缩不如 DeepSeek 激进。DeepSeek-V4 更偏自研系统栈和底层 kernel 优化，系统复杂度高、部署门槛可能更高。

MTP 方面，V2.5-Pro 还配备三个使用 dense FFN 的轻量级 MTP 模块。这使得推理阶段的输出速度提升至约 3 倍，同时也有利于加速强化学习训练中的 rollout。

MiMo-V2.5-Pro 使用 27T tokens 进行训练，采用 FP8 混合精度和原生 32K 序列长度，上下文窗口最高支持 100 万 tokens。其训练重点不再是感官对齐，而是转向扩展后训练计算量。这一过程旨在注入 “harness awareness”，即“脚手架意识”。模型会被专门训练，以便在 Claude Code 或 OpenCode 这类自主智能体脚手架中，管理自己的记忆和上下文。

最后，虽然两款模型都会经历强化学习（RL）和多模态偏好优化（MOPD），但这些阶段的目标不同：

对于 MiMo-V2.5，RL 阶段用于加强感知能力和多模态推理能力。

对于 MiMo-V2.5-Pro，RL 更聚焦于 agentic 场景中的指令遵循，确保模型能够遵守深藏在超长上下文中的细微要求，并在自主执行过程中从错误中优雅恢复。这带来了 Pro 模型的“自我纠错”纪律性。

在实际体验中，有用户指出，同样是一份数据处理脚本的审查，有一处不会报错的隐秘 bug，两个模型都查不出来，但是 GPT 和 Claude 都能够稳定地发现它。不过 DeepSeek v4 Pro 告诉它检查哪个部分后，它能够发现问题，MIMO V2.5 Pro 做不到，需要明确的错误反馈。

“我感觉 MIMO 的这个模型推理预算被限制很厉害，又或者可能没有做过太多长链推理的训练。没有明确的错误反馈，靠它自己凭空思考表现不太好。”该用户指出。

此外还有用户提到，在免费期过后，小米模型使用占比一直在下降，加上近期罗福莉露出频繁，“现在小米公司做的一切，感觉就是为了营销它的产品，它的 Token。”

参考链接：

https://mimo.xiaomi.com/mimo-v2-5-pro

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro

https://venturebeat.com/ai/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks

本文来自微信公众号“AI前线”，整理：褚杏娟，36氪经授权发布。

发布时间：2026-04-28 18:13

上一篇:
独家对谈｜缘启智慧CEO邓江，一个80后银行码农出身的AI医疗创业者
下一篇:
今天港股最火IPO敲锣，800亿

小米万亿模型全面开源：MIT 协议、1M 上下文，但还是打不过 DeepSeek

拼 token 效率，但 DeepSeek 价格依然最能打

网友评价

都是 MoE 架构，但训练路线不同

独家对谈｜缘启智慧CEO邓江，一个80后银行码农出身的AI医疗创业者

今天港股最火IPO敲锣，800亿