3月11日,代号为“Hunter Alpha”的神秘模型悄然上线全球最大API聚合平台OpenRouter。短短七天内,累计调用量突破1万亿Token,连续多日登顶榜单,一度被误认为是“DeepSeek V4”的早期版本。
如今谜底揭晓。
3月19日,小米正式发布新一代基础大模型体系,其中,“Hunter Alpha”正是其旗舰模型MiMo-V2-Pro的内部测试版本。这款模型不仅是小米在大模型领域的“新作业”,也被视为其全面押注智能体(Agent)时代的重要信号。
OpenRouter 的大模型调用量排行榜(LLM Leaderboard)
MiMo-V2-Pro是小米面向现实世界复杂任务打造的旗舰基座模型,其核心定位不再是“对话工具”,而是Agent系统的大脑——能够理解任务、调用工具、执行多步骤流程,并最终交付结果。
从架构上看,该模型总参数规模突破1万亿(1T),其中激活参数为42B,采用改进后的混合注意力机制(Hybrid Attention),在保证推理效率的同时大幅提升模型容量。其上下文窗口进一步扩展至100万Token,可以支持超长任务链和复杂工作流。
在此前“Hunter Alpha”的测试阶段,这些能力已经初步显现。
OpenRouter数据显示,其调用量快速增长,且主要集中在代码生成与开发工具领域,反映出其在真实工程场景中的高可用性与稳定性。
MiMo-V2-Pro 在不同“Agent能力测试”中的表现
在多项Agent评测中,MiMo-V2-Pro表现已进入全球第一梯队。
在通用Agent能力评估(ClawEval)中,MiMo-V2-Pro得分61.5,逼近Claude Opus 4.6;在PinchBench测试中排名全球前三。在编码能力方面,其表现甚至超过Claude Sonnet 4.6,接近更高端的Opus级别。
更关键的是,小米强调该模型的优化重点并非“跑分”,而是真实世界表现。
通过在大量Agent任务框架(如OpenClaw等)上的监督微调(SFT)与强化学习(RL),MiMo-V2-Pro在工具调用稳定性、多步骤推理能力以及任务完成度方面显著提升。
换句话说,它不只是“会回答”,而是“能干活”。
在全球权威大模型综合智能排行榜Artificial Analysis上,MiMo-V2-Pro位列全球第八,国内第二。
MiMo-V2-Pro的一个重要转变,是从传统对话模型向“执行型智能体”的跃迁。
在实际测试中,MiMo-V2-Pro展现出明显区别于传统对话模型的“执行能力”。它不仅能够理解复杂指令,还可以在一次提示中完成从设计到实现的完整任务闭环。
例如,有开发者要求它生成一个完整的3D塔防游戏,包括多种防御塔、不同敌人机制、关卡设计以及爆炸、火焰等特效,并基于Three.js实现渲染,同时提供暂停、重开、计分等功能。模型能够直接给出结构完整的代码方案,覆盖游戏逻辑和前端实现。
在另一类更偏创意与前端设计的任务中,MiMo-V2-Pro同样表现出较强的跨领域能力。
测试要求其“模拟20世纪90年代纸质杂志的视觉风格,包括不规则多栏排版、出血标题、纸张纹理背景,以及带有翻页动效的交互设计”。模型不仅能够理解这一复杂的审美描述,还能生成包含字体选择、布局结构与动态效果在内的完整前端实现方案。
这些案例显示,MiMo-V2-Pro正在从“生成内容”走向“生成系统”,其能力边界已扩展至软件工程与数字创意生产的完整流程。
此外,100万Token的超长上下文,使其能够处理长链路任务,例如跨文件代码理解、大规模文档分析甚至持续多轮的任务规划,这些都是传统模型难以胜任的场景。
MiMo-V2-Pro API服务收费标准
随着正式发布,小米同步开放MiMo-V2-Pro API服务(platform.xiaomimimo.com),并给出相对激进的定价策略。
该模型采用分段计费模式:在256K上下文范围内,输入与输出单价分别为1美元和3美元(每百万Token);若使用1百万长上下文,费率则上浮至输入2美元、输出6美元。
这一价格明显低于同级别模型(如Claude Opus),意图快速吸引开发者生态。特别是“缓存写入暂时免费”的策略,对于需要频繁调用长上下文提示词的Agent开发者而言,将极大地降低运行成本。
同时,小米还联合OpenClaw、Cline等多个主流Agent框架,推出限时免费调用计划,进一步推动其在开发者社区的渗透。
MiMo-V2-Pro解决了Agent的“大脑”逻辑问题,而同步亮相的MiMo-V2-Omni与MiMo-V2-TTS,则补齐了感知与表达的最后两块拼图。
这两款模型的发布,标志着小米的大模型战略已从单一的文本交互,转向构建一套完整的、可闭环的多模态Agent基础设施。
作为全模态基座模型,MiMo-V2-Omni的核心价值在于实现了音频、图像、视频的对齐。
不同于传统的视觉识别模型,Omni专为Agent的执行场景设计。它可以直接接入各类Agent框架,将复杂的物理环境信息(如实时监控画面、音频指令或操作界面)实时转化为逻辑决策。在实际应用中,这意味着 Agent 能够像人一样,通过视听信息感知世界并直接生成执行指令。
在定价上,小米延续了极致的性价比路线。
MiMo-V2-Omni API现已正式开放,针对256K上下文,输入与输出单价分别为0.4美元/百万Token和2美元/百万Token。这种费率策略显然是为了吸引更多开发者尝试复杂的多模态应用开发。
如果说Omni解决了“看”和“听”,那么MiMo-V2-TTS则让Agent具备了更接近人类的表达能力。
该模型摒弃了传统合成语音的机械感,基于小米自研的Audio Tokenizer和多码本联合建模架构,实现了对语音风格和情绪的精准调节。这种“细粒度控制”不仅能定调整体情感,还能处理局部的语气波动。
在本土化适配上,MiMo-V2-TTS展现了极高的灵活性。
除了支持东北话、四川话、粤语等多种方言,它还具备自然合成歌声的能力。对于开发者而言,这意味着可以为Agent赋予更具辨识度和人情味的人设,使其在从工具向助手的转变中,完成更具温度的情感交付。
特约编译无忌对本文亦有贡献
本文来自微信公众号“腾讯科技”,作者:苏扬,编辑:徐青阳,36氪经授权发布。
发布时间:2026-03-19 10:41