Cursor 2.0 终于来了!
刚刚,Cursor 发布了两项重大更新:首个编码模型 Composer,以及用于并行协作多个智能体的新界面。
此举意义非凡。一直以来,Cursor 虽然广受欢迎,但终究免不了「AI 时代的 VS Code」的帽子,因为它此前只能使用 Claude、GPT 等第三方模型。这既是 Cursor 的起点,也成了它的瓶颈。
Composer 的发布,堪称是 Cursor 打破这个瓶颈的「独立宣言」,这也标志着 Cursor 正式从「AI 外壳」向「AI 原生平台」进化。
Composer 是一款前沿模型,虽然智能程度不敌 GPT-5 等最佳前沿模型,但速度确实遥遥领先,达到了同等智能模型的 4 倍。
在基准测试中,Composer 实现了前沿水平的编码智能,同时生成速度达到每秒 250 个 token—— 大约是领先的快速推理模型的两倍,是同类前沿系统的四倍。(注:Cursor 发布的对比将模型分为几个类别:「最佳开源」(例如,Qwen Coder、GLM 4.6)、「快速前沿」(Haiku 4.5、Gemini Flash 2.5)、「2025 年 7 月前沿」(年中可用的最强模型)以及「最佳前沿」(包括 GPT-5 和 Claude Sonnet 4.5)。Composer 在匹敌中端前沿系统智能水平的同时,还在所有测试类别中实现了有记录以来的最高生成速度。)
该模型专为在 Cursor 中进行低延迟的智能体式编码而打造,大多数回合在 30 秒内完成。早期测试者认为其快速迭代的能力非常顺手,并愿意信任它处理多步骤编码任务。
官方表示,Composer 通过一组强大的工具进行训练,包括覆盖整个代码库的语义搜索,因此在理解与处理大型代码库方面显著更强。
具体来说,在训练过程中,Composer 可使用一套生产级的搜索与编辑工具,并被要求高效解决各类棘手问题。
该模型的研发动力源于 Cursor 团队在开发 Cursor Tab(自研的补全模型)时的经验。
他们发现,开发者往往希望使用既足够智能又能支持交互式使用的模型,以保持编码的专注与流畅。在研发过程中,他们试验了一个代号为 Cheetah 的原型智能体模型,以更好地理解更高速智能体模型的影响。Composer 是该模型的更智能升级版,凭借足够的速度支撑交互式体验,让编码始终愉快顺滑。
从架构上来看,Composer 是一种混合专家(MoE)模型,支持长上下文的生成与理解。它通过在多样化的开发环境中进行强化学习,针对软件工程进行了专项优化。每次训练迭代中,模型都会接收问题描述,并被指示产出最佳响应,无论是代码修改、方案规划,还是信息性回答。模型既能使用读取与编辑文件等简单工具,也能调用更强大的能力,例如终端命令和面向整个代码库的语义搜索。
为衡量进展,他们构建了一套尽可能贴近软件开发者实际使用价值的评测。新基准测试 Cursor Bench 由 Cursor 的工程师和研究人员提交的真实智能体请求组成,并配有人工精心整理的最佳解决方案。该评测不仅考察智能体的正确性,还评估其对代码库既有抽象与软件工程实践的遵循程度。
强化学习使他们能够有针对性地优化模型,以更好地服务高效的软件工程。鉴于响应速度是交互式开发的关键,他们鼓励模型在工具使用上做出高效选择,并在可能的情况下最大化并行处理。此外,他们通过减少不必要的回复、避免无依据的陈述来训练模型。他们还发现,在 RL 过程中,模型会自发习得一些有用的能力,例如执行复杂搜索、修复 linter 错误,以及编写并运行单元测试。
Composer 已经被 Cursor 自己的工程团队在日常开发中使用 —— 这表明其成熟度和稳定性。
目前,Composer 已完全集成到 Cursor 2.0 中,这是该公司智能开发环境的一次重大更新。
Cursor 的界面设计也进行了更换。
其博客介绍说,这一版本更加聚焦,彻底以「智能体」为中心,而非传统的文件结构。这样用户就能专注于想要的结果,而让智能体处理繁琐的细节。当需要深入代码时,用户也可以轻松在新布局中打开文件,或切换回经典的 IDE 界面。
Cursor 2.0 能够轻松并行运行多个智能体,它们之间互不干扰。这得益于 git worktree 或远程机器的支持。Cursor 表示:「我们甚至发现,让多个模型同时尝试同一问题并择优采用,能显著提升最终结果,尤其是在更难的任务上。」
every.to 博客分享了一些测试示例,比如在下面的示例中,在顶部栏中,可以看到三个不同的模型上运行了相同的任务:Composer 1 Alpha 运行了两次,Grok Code 运行了一次:
该博客写到:「现在,开发者可以同时运行多个 AI 智能体,每个智能体负责项目的不同部分,每个部分被称为一个工作树(work tree)。这相当于一群实习生各自负责这篇文章的不同章节,并同时向我汇报工作。」
另外,Cursor 官方还提到,随着他们更多地使用智能体进行编码,出现了两个新的瓶颈:代码评审与变更测试。
Cursor 2.0 也开始解决这两个问题。支持更快速地审阅智能体的变更,并在需要时深入代码。
同时,他们还构建了原生浏览器工具,使 Cursor 可以测试其工作并持续迭代,直到产出正确的最终结果。
高效训练大型 MoE 模型需要在基础设施与系统研究方面进行大量投入。团队基于 PyTorch 和 Ray 构建了定制化训练基础设施,以在大规模环境下支持异步强化学习。他们通过将 MXFP8 MoE kernels 与专家并行和混合分片数据并行相结合,在原生低精度下训练模型,从而以极低的通信开销将训练扩展到数千张 NVIDIA GPU。此外,采用 MXFP8 训练还能在无需训练后量化的情况下实现更快的推理速度。
在进行 RL 时,团队希望模型能够调用 Cursor Agent 框架中的任意工具。这些工具可用于编辑代码、进行语义搜索、使用 grep 查找字符串,以及运行终端命令。以 Cursor 的规模,要让模型高效调用这些工具,需要在云端并发运行数十万份隔离的沙盒编码环境。为了承载这类工作负载,团队对既有的 Background Agents 基础设施进行了改造,重写了虚拟机调度器,以适配训练运行的突发性与规模。由此,他们将 RL 环境与生产环境实现了无缝统一。
作为明星级 AI 编程工具,Cursor 的这次大版本更新自然也收获了无数眼球。
参与过早期体验的开发者纷纷给出好评。比如 every.to 博客就收集整理了多位开发者的意见反馈,其中有好有坏:
X 上也有不少网友分享自己的体验。
已经有人玩笑式让 Cursor 2.0 来构建 AGI 了:
参考链接:
https://x.com/cursor_ai/status/1983567619946147967
https://cursor.com/blog/2-0
https://every.to/vibe-check/vibe-check-cursor-2-0-and-composer-1-alpha
https://cursor.com/cn/changelog/2-0
本文来自微信公众号“机器之心”,36氪经授权发布。
发布时间:2025-10-30 12:00