马斯克甩出两张王牌，Grok Build杀入AI编程-新糖宝胶囊官方网站

【导读】AI编程三国杀来了！5月14日，xAI上线了Grok Build，一个跑在终端里、能自己规划任务和改代码的编程智能体。马斯克曾承认xAI在编程上落后，这是它正面追赶Claude Code和OpenAI Codex的第一步。

马斯克补齐xAI编程短板的两张牌，已经打出。

5月14日，xAI发布Grok Build早期Beta，官方把它定位为「编程智能体和CLI（命令行工具）」，优先面向SuperGrok Heavy订阅用户开放。

到了25日，xAI在官网正式发布Grok Build公告，准入也从SuperGrok Heavy扩大到所有SuperGrok和X Premium Plus用户。至此，它才从一个高门槛的小范围Beta，变成更多付费用户能上手的工具。

https://x.ai/news/grok-build-cli

马斯克此前公开承认过，xAI在编程场景上落后。据Bloomberg报道，xAI内部曾有高管要求团队，把Grok做到能在各类任务上追平Claude。而Grok Build，就是这场追赶赛的第一个产品。

但产品一上线，很快就有用户提出了一个尖锐的问题：虽然产品界面不错，可底层模型不够强：

只要xAI拿出一个真正SOTA（业界最强水平）的模型，Grok Build一夜之间就能和Codex、Claude Code正面竞争。

马斯克随后在X上回了话，亮出了xAI下一代基础模型：

「我们最近完成的Grok V9 1.5T运行效果非常出色，这还是在尚未加入Cursor数据进行补充训练之前的结果。」

他还专门发帖，捋了一遍xAI那套「有点令人困惑」的版本号：内部正在开发的V9，参数1.5T，在数据整理、训练方法、模型规模等每个方面都显著优于V8，并针对Blackwell架构进行了优化；而面向公众的v4.2，基于V8训练，参数仅0.5T，在训练数据的质量、全面性和比例上存在重大缺陷。

从V8到V9，马斯克用了一个词来形容：「差距巨大」。

三大维度重建V9

马斯克口中的「差距巨大」，主要来源于三个维度的重建。

参数规模

首先，是参数规模，从0.5T涨到1.5T，实现了三倍扩张。

参数量扩大，可能提升模型容量、复杂任务建模能力，以及长链路工具调用中的稳定性。但上下文窗口、仓库级理解和长程任务表现，并不由参数量单独决定。

V9是否能在复杂代码仓库、跨文件修改和多步骤智能体任务中明显提升，仍需等公开版上线后通过实测验证。

由于Claude、GPT、Gemini 等头部模型普遍不公开具体参数量，V9的1.5T更适合作为xAI自身代际比较的指标，而不宜直接拿来和Sonnet、Opus或GPT系列做横向比较。

Hopper不够用了，xAI把Blackwell顶上去

按马斯克的说法，公开版v4.2所基于的V8约为0.5T参数，训练在Hopper芯片上；内部V9则扩大到1.5T参数，并面向Blackwell架构优化。

这意味着，V9的升级不只是模型尺寸变大，也伴随着底层硬件平台的代际切换。

相比Hopper，Blackwell面向更大规模模型集群做了进一步设计，包括更高的互联带宽、更强的低精度计算能力，以及面向万亿级模型训练和推理的系统级扩展能力。

需要注意的是，Hopper本身已经支持FP8，Blackwell的新增重点更应放在FP4、第五代NVLink和更大规模集群互联上。

xAI的算力底牌，是部署在孟菲斯的Colossus超级集群。

马斯克过去一年多次更新过Colossus的扩张进度。

这次V9被称为面向Blackwell优化，也意味着xAI正试图把集群扩张和硬件升级，转化为下一代基础模型的训练与运行能力。

真实的开发者数据

第二个是数据质量。

马斯克直言不讳：V8的数据质量有缺陷，全面性不够，比例不对。这意味着V8并非只是「规模小一点的模型」，而是一个数据基础就没打好的模型。

而V9补充训练的核心一步，是引入Cursor数据。

马斯克在5月15日的帖子里特别提到：V9的训练刚刚跑完，Cursor数据还没有加进去，将在补充训练阶段引入。

5月17日他更新了进度：下一步加入Cursor数据做补充训练，然后是SFT（监督微调）和RL（强化学习），整个流程大约还需要3到4周。

Cursor数据的价值，在于它是过程数据。GitHub上有海量代码，但是终态数据。

从空白文件到最终代码之间发生的数据：开发者补全、回退、纠错、与智能体互动……这些过程数据才是训练编程智能体真正稀缺的资源。

在补充训练中加入Cursor数据之后，V9将是第一个在真实开发者行为上系统性训练过的Grok。

这次马斯克点名Cursor，也不是随意的。xAI与Cursor的关系由来已久：2025 年grok-code-fast-1发布时，Cursor是其限时免费接入的合作平台之一。

至于V9补充训练所用的Cursor数据具体来源和授权细节，目前没有公开信息。

Grok Build到底是什么

功能上，Grok Build是一个跑在终端里的CLI工具，安装只要一行命令。

https://x.ai/cli

功能上，这是一个跑在终端里的CLI工具，安装只要一行命令。

装好之后，进入项目目录敲一个grok，它就开始工作。你可以让它解释整个代码仓库的结构，也可以直接丢给它一个任务，比如「给这个API加上限流」，它会自己定位文件、改代码、跑测试、再修自己的错。

它有三种用法。一是TUI（终端图形交互界面），全屏、可鼠标操作；二是headless（无界面）模式，塞进脚本和自动化流程里；三是通过ACP（智能体客户端协议）接入其他应用。

真正值得关注的是它的工作方式：先规划，后执行。

面对复杂任务，Grok Build会先把思路写成一份计划，停下来等你确认。你可以逐条批注、整段重写，甚至让它带着问题先反问你一句，再动手。计划通过后，每一处改动都以清晰的diff（差异对比）呈现，改了什么一目了然。当一个编程智能体直接在真实项目文件里动手，这道审核关卡就不是可有可无。

它还支持子智能体并行，把一个任务拆给多个子智能体分头处理；支持MCP（模型上下文协议）服务器；有skills（技能）、plugins（插件）和marketplace（应用市场）的扩展体系；斜杠命令里甚至带着用/imagine生成图片、用/imagine-video生成视频。

把这些拼在一起，Grok Build对标的是Claude Code、Codex CLI和Cursor的智能体，而并非传统聊天机器人。xAI这次拿出的，是一个完整的开发者工作流入口。

底座是grok-build-0.1，V9还没上线

按xAI官方文档，驱动Grok Build的是一个专门训练的模型：grok-build-0.1。

它在5月19日前后进入API早期访问，官方对它的定位是「为智能体编程训练的快速编码模型」。

这是一款专门定位于编程的模型。它支持文本和图像输入，原生具备工具调用、结构化输出和推理能力，上下文窗口256K（约25.6万token）。它被训练成能在一个长链路里反复循环：读问题、写代码、用终端、查错、改错。

grok-build-0.1已单独上架xAI API，开发者可以把它直接塞进自己的智能体循环或者IDE集成里，并不一定要套Grok Build这个外壳。

它的出现，也意味着xAI编程模型线的一次重整。更早的grok-code-fast-1已在5月中旬退役，xAI官方建议把代码工作负载迁移到grok-build-0.1，并称后者在智能体编程和Web开发能力上有显著提升。

从一个「快而便宜的代码模型」，到一整套编程智能体产品，xAI走的是从模型API到开发者入口的路。

目前，xAI官方模型页仍把Grok 4.3列为通用主模型，只在用途表里把「编程」对应到Grok Build 0.1。

xAI官网API页面，当前对外主模型仍为Grok 4.3。https://x.ai/api

马斯克口中的V8、V9，是xAI基础模型的代际编号，和对外的产品版本号是两回事：他帖子里把公开模型称作v4.2，xAI官网则标为Grok 4.3。

grok-build-0.1则是另一条线上面向编程的专用模型，它和V9是不是同一套底座、有没有用上V9的预训练成果，xAI都没有公开说明。

真正的较量在6月

V9训练跑完，并不等于上线。整套后训练流程走完，公开版还要再等几周。

在这几周里，同行不会闲着。Claude Code保持着极高的迭代密度，最快两天内完成bug修复并发版；OpenAI的Codex持续小步推进；Cursor作为IDE平台，也在加深智能体能力、扩展模型选择、增强平台粘性。

V9上线之后，还有问题待验证。参数翻3倍，并不等于能力翻3倍。1.5T能不能在编程基准上拉开和Claude、GPT的差距，要等实战。

xAI补齐了产品线，V9训练已跑完、硬件已就位，几周后就要拿出公开版，接受所有人检验。

xAI的两张牌已经摊开，但牌桌上不止它一家。

Claude Code、Codex、Grok Build即将正面相遇，Cursor也在一旁持续加码。

谁是王者，要等6月的代码实战才能揭晓。

参考资料：https://x.com/elonmusk/status/2055914584373141906

本文来自微信公众号“新智元”，作者：ASI启示录；编辑：元宇 Moses，36氪经授权发布。

发布时间：2026-05-26 19:20

马斯克甩出两张王牌，Grok Build杀入AI编程