马斯克甩出两张王牌,Grok Build杀入AI编程

【导读】AI编程三国杀来了!5月14日,xAI上线了Grok Build,一个跑在终端里、能自己规划任务和改代码的编程智能体。马斯克曾承认xAI在编程上落后,这是它正面追赶Claude Code和OpenAI Codex的第一步。

马斯克补齐xAI编程短板的两张牌,已经打出。

5月14日,xAI发布Grok Build早期Beta,官方把它定位为「编程智能体和CLI(命令行工具)」,优先面向SuperGrok Heavy订阅用户开放。

到了25日,xAI在官网正式发布Grok Build公告,准入也从SuperGrok Heavy扩大到所有SuperGrok和X Premium Plus用户。至此,它才从一个高门槛的小范围Beta,变成更多付费用户能上手的工具。

https://x.ai/news/grok-build-cli

马斯克此前公开承认过,xAI在编程场景上落后。据Bloomberg报道,xAI内部曾有高管要求团队,把Grok做到能在各类任务上追平Claude。而Grok Build,就是这场追赶赛的第一个产品。

但产品一上线,很快就有用户提出了一个尖锐的问题:虽然产品界面不错,可底层模型不够强:

只要xAI拿出一个真正SOTA(业界最强水平)的模型,Grok Build一夜之间就能和Codex、Claude Code正面竞争。

马斯克随后在X上回了话,亮出了xAI下一代基础模型:

「我们最近完成的Grok V9 1.5T运行效果非常出色,这还是在尚未加入Cursor数据进行补充训练之前的结果。」

他还专门发帖,捋了一遍xAI那套「有点令人困惑」的版本号:内部正在开发的V9,参数1.5T,在数据整理、训练方法、模型规模等每个方面都显著优于V8,并针对Blackwell架构进行了优化;而面向公众的v4.2,基于V8训练,参数仅0.5T,在训练数据的质量、全面性和比例上存在重大缺陷。

从V8到V9,马斯克用了一个词来形容:「差距巨大」。

三大维度重建V9

马斯克口中的「差距巨大」,主要来源于三个维度的重建。

参数规模

首先,是参数规模,从0.5T涨到1.5T,实现了三倍扩张。

参数量扩大,可能提升模型容量、复杂任务建模能力,以及长链路工具调用中的稳定性。但上下文窗口、仓库级理解和长程任务表现,并不由参数量单独决定。

V9是否能在复杂代码仓库、跨文件修改和多步骤智能体任务中明显提升,仍需等公开版上线后通过实测验证。

由于Claude、GPT、Gemini 等头部模型普遍不公开具体参数量,V9的1.5T更适合作为xAI自身代际比较的指标,而不宜直接拿来和Sonnet、Opus或GPT系列做横向比较。

Hopper不够用了,xAI把Blackwell顶上去

按马斯克的说法,公开版v4.2所基于的V8约为0.5T参数,训练在Hopper芯片上;内部V9则扩大到1.5T参数,并面向Blackwell架构优化。

这意味着,V9的升级不只是模型尺寸变大,也伴随着底层硬件平台的代际切换。

相比Hopper,Blackwell面向更大规模模型集群做了进一步设计,包括更高的互联带宽、更强的低精度计算能力,以及面向万亿级模型训练和推理的系统级扩展能力。

需要注意的是,Hopper本身已经支持FP8,Blackwell的新增重点更应放在FP4、第五代NVLink和更大规模集群互联上。

xAI的算力底牌,是部署在孟菲斯的Colossus超级集群。

马斯克过去一年多次更新过Colossus的扩张进度。

这次V9被称为面向Blackwell优化,也意味着xAI正试图把集群扩张和硬件升级,转化为下一代基础模型的训练与运行能力。

真实的开发者数据

第二个是数据质量。

马斯克直言不讳:V8的数据质量有缺陷,全面性不够,比例不对。这意味着V8并非只是「规模小一点的模型」,而是一个数据基础就没打好的模型。

而V9补充训练的核心一步,是引入Cursor数据。

马斯克在5月15日的帖子里特别提到:V9的训练刚刚跑完,Cursor数据还没有加进去,将在补充训练阶段引入。

5月17日他更新了进度:下一步加入Cursor数据做补充训练,然后是SFT(监督微调)和RL(强化学习),整个流程大约还需要3到4周。

Cursor数据的价值,在于它是过程数据。GitHub上有海量代码,但是终态数据。

从空白文件到最终代码之间发生的数据:开发者补全、回退、纠错、与智能体互动……这些过程数据才是训练编程智能体真正稀缺的资源。

在补充训练中加入Cursor数据之后,V9将是第一个在真实开发者行为上系统性训练过的Grok。

这次马斯克点名Cursor,也不是随意的。xAI与Cursor的关系由来已久:2025 年grok-code-fast-1发布时,Cursor是其限时免费接入的合作平台之一。

至于V9补充训练所用的Cursor数据具体来源和授权细节,目前没有公开信息。

Grok Build到底是什么

功能上,Grok Build是一个跑在终端里的CLI工具,安装只要一行命令。

https://x.ai/cli

功能上,这是一个跑在终端里的CLI工具,安装只要一行命令。

装好之后,进入项目目录敲一个grok,它就开始工作。你可以让它解释整个代码仓库的结构,也可以直接丢给它一个任务,比如「给这个API加上限流」,它会自己定位文件、改代码、跑测试、再修自己的错。

它有三种用法。一是TUI(终端图形交互界面),全屏、可鼠标操作;二是headless(无界面)模式,塞进脚本和自动化流程里;三是通过ACP(智能体客户端协议)接入其他应用。

真正值得关注的是它的工作方式:先规划,后执行。

面对复杂任务,Grok Build会先把思路写成一份计划,停下来等你确认。你可以逐条批注、整段重写,甚至让它带着问题先反问你一句,再动手。计划通过后,每一处改动都以清晰的diff(差异对比)呈现,改了什么一目了然。当一个编程智能体直接在真实项目文件里动手,这道审核关卡就不是可有可无。

它还支持子智能体并行,把一个任务拆给多个子智能体分头处理;支持MCP(模型上下文协议)服务器;有skills(技能)、plugins(插件)和marketplace(应用市场)的扩展体系;斜杠命令里甚至带着用/imagine生成图片、用/imagine-video生成视频。

把这些拼在一起,Grok Build对标的是Claude Code、Codex CLI和Cursor的智能体,而并非传统聊天机器人。xAI这次拿出的,是一个完整的开发者工作流入口。

底座是grok-build-0.1,V9还没上线

按xAI官方文档,驱动Grok Build的是一个专门训练的模型:grok-build-0.1。

它在5月19日前后进入API早期访问,官方对它的定位是「为智能体编程训练的快速编码模型」。

这是一款专门定位于编程的模型。它支持文本和图像输入,原生具备工具调用、结构化输出和推理能力,上下文窗口256K(约25.6万token)。它被训练成能在一个长链路里反复循环:读问题、写代码、用终端、查错、改错。

grok-build-0.1已单独上架xAI API,开发者可以把它直接塞进自己的智能体循环或者IDE集成里,并不一定要套Grok Build这个外壳。

它的出现,也意味着xAI编程模型线的一次重整。更早的grok-code-fast-1已在5月中旬退役,xAI官方建议把代码工作负载迁移到grok-build-0.1,并称后者在智能体编程和Web开发能力上有显著提升。

从一个「快而便宜的代码模型」,到一整套编程智能体产品,xAI走的是从模型API到开发者入口的路。

目前,xAI官方模型页仍把Grok 4.3列为通用主模型,只在用途表里把「编程」对应到Grok Build 0.1。

xAI官网API页面,当前对外主模型仍为Grok 4.3。https://x.ai/api

马斯克口中的V8、V9,是xAI基础模型的代际编号,和对外的产品版本号是两回事:他帖子里把公开模型称作v4.2,xAI官网则标为Grok 4.3。

grok-build-0.1则是另一条线上面向编程的专用模型,它和V9是不是同一套底座、有没有用上V9的预训练成果,xAI都没有公开说明。

真正的较量在6月

V9训练跑完,并不等于上线。整套后训练流程走完,公开版还要再等几周。

在这几周里,同行不会闲着。Claude Code保持着极高的迭代密度,最快两天内完成bug修复并发版;OpenAI的Codex持续小步推进;Cursor作为IDE平台,也在加深智能体能力、扩展模型选择、增强平台粘性。

V9上线之后,还有问题待验证。参数翻3倍,并不等于能力翻3倍。1.5T能不能在编程基准上拉开和Claude、GPT的差距,要等实战。

xAI补齐了产品线,V9训练已跑完、硬件已就位,几周后就要拿出公开版,接受所有人检验。

xAI的两张牌已经摊开,但牌桌上不止它一家。

Claude Code、Codex、Grok Build即将正面相遇,Cursor也在一旁持续加码。

谁是王者,要等6月的代码实战才能揭晓。

参考资料:https://x.com/elonmusk/status/2055914584373141906

本文来自微信公众号“新智元”,作者:ASI启示录;编辑:元宇 Moses,36氪经授权发布。

发布时间:2026-05-26 19:20