新糖宝胶囊 > 正文

Gemini 3.5 Pro全网首曝，编程追平GPT-5.5，谷歌终于狠起来了

就在刚刚，Gemini 3.5提前曝光了！

网友Lentils放出最新消息，代号「Cappuccino」的Gemini 3.5 Pro检查点已经开始产出。

而就在几个小时前，传闻还是Gemini 3.2，没想到一下子就替换成了Gemini 3.5。

从3.2到3.5的跳级命名，谷歌显然想在I/O上讲一个更大的故事。

Gemini大更新，谷歌祭出杀招

前一天，知名爆料人can率先晒出了首批输出。

一个是DualShock 4手柄的交互式蓝图拆解，另一个是鹈鹕骑自行车的矢量插画，自带7维定制面板，车架颜色、光照、头饰、篮筐内容、蹬车速度全部实时切换。

从截图来看，这已经不是简单的SVG了，而是一个prompt生成的完整交互式Web应用！

Abacus.AI CEO Bindu Reddy随后放出的数据更炸——

3.2 Flash在编码和推理上达到GPT-5.5的92%，成本却便宜15到20倍。

不仅如此，谷歌全新的全时Agent「Gemini Spark」也被扒了出来。

可以看到，它不仅能全天候待命，帮你管邮件、跑任务，甚至可能不问你就替你下单。

然而就在此时，Alex Heath的独家爆料，却狠狠地泼了一盆冷水——

新款Gemini的性能，最多只能追平OpenAI的GPT-5.5……

一个prompt四个方案，Gemini「懒癌」治好了

先看好消息。

以前Gemini生成SVG，社区最常用的吐槽就一个字，「懒」。给一个prompt，出一个敷衍结果。

但这次不一样了。

网友Lentils只用了一个简单提示，Gemini就直接出了4个风格各异、细节拉满的Robot SVG。

同期泄露的3.5 Flash也印证了这个趋势。

LM Arena的匿名跑分显示，Flash在SVG生成、交互式3D编码和动画处理上已经超过了3.1 Pro。

换句话说，谷歌的蒸馏加稀疏化技术正在收获回报，把前沿模型压成了轻量版，质量断崖却没出现。

帮你管邮件、替你花钱，谷歌Agent胆子够大

同一天的另一个重磅泄露是「Gemini Spark BETA」。

根据爆料，Spark的定位是「你的日常AI智能体，全天候待命」。

一个24小时全时运转的AI Agent，帮你处理收件箱、执行在线任务、管理多步骤工作流。

Spark的数据来源清单让人倒吸一口气。

已连接的Google应用、技能模块、聊天记录、定时任务、你登录的网站、Personal Intelligence、位置信息。

Gemini会把你的姓名、联系方式、文件、偏好等信息分享给第三方来完成任务。

此外，为了保持会话连续性，系统还会保存远程浏览器数据，包括登录凭证和远程代码执行数据。

不过值得注意的是，Spark虽然设计上会在敏感操作前征求许可，但它「可能在未经询问的情况下分享你的信息或完成购买」。

也就是说，它可能不问你就下单，也可能不问你就把信息分享出去。

Spark的前身是谷歌内部代号「Remy」的Agent升级版，此前只面向AI Ultra订阅用户。

从Remy到Spark，Gemini的Agent从「一个功能」一步升格为「24/7的数字生活管家」。

这正面对标Anthropic即将发布的托管Agent Conway，以及OpenAI已经上线的24/7 Agent平台。

半年前的榜首，半年后摸不到前沿的边

好消息到此结束。

根据Alex Heath从多个信源处得到的确认，下周二发布的新Gemini，大致落在GPT-5.5这个档位，距离Mythos还有明显差距。

想当初，刚发布的Gemini 3凭借着LMArena 1501 Elo，几乎扫了所有主流排行榜第一。

半年过去，GPT-5.5、Opus 4.7、Mythos相继发布后，格局已经被彻底改写。

英国AI安全研究所的评测显示，Mythos是第一个同时通过其两套网络安全测试范围的模型，GPT-5.5只通过了一套。

AISI甚至承认，评测框架已经快跟不上Mythos的能力了。

回到谷歌这边，根据网友Fandu扒到的模型选择器的最新界面，新款Gemini很可能原生支持MCP第三方工具接入，Thinking模式也将全面重构。

可以看到，除了3.1 Flash-Lite、3 Flash、3.1 Pro这几个大家熟知的模型外，还多了一个从未见过的分类「MCP Tool Testing」，也就是「可用于MCP工具测试的模型」。

思维模式也从原来的独立Thinking模式，变成了全局开关，分Standard（适合大多数问题）和Extended（求解复杂问题）两档。

编程，最让DeepMind焦虑的战场

Heath的爆料中，编程部分的措辞最重。

他说，DeepMind内部正面临着切实的压力，尤其是在编程能力方面需要迎头赶上。

追赶目标很明确，Anthropic。过去一年，Claude在开发者群体中坐稳了默认选项。

新Gemini会包含编程改进，但在Heath的信源里，没有一个人认为会带来质变。

谷歌的AI编程平台Antigravity，内部用得很多，但在外部市场一直没能突围。

4个月6%的开发者采用率，对一个IDE来说不算慢，但跟Claude Code和Codex的势头比差距明显。

问题出在哪？

XDA的一篇月度评测试了三个工具做同一个任务。

Claude Code第一次就准确理解了复杂创意提示。而Antigravity的输出却像是用「微软画图」做出来的涂鸦。

此外，Antigravity的定价策略也让开发者头疼。

谷歌已经多次调整定价模型，从免费预览到信用点制度，社区论坛上关于额度用完没提醒的抱怨一直没断过。

但最为关键的在于，如今AI编程已经彻底出圈了。

不管Claude Cowork，还是OpenAI的Codex，都能让不会写代码的人用得飞起——

产品经理用自然语言描述需求，直接得到可运行的原型。设计师把Figma稿丢进去，拿到前端代码。

然而到目前为止，谷歌都没有任何产品能够进入这个对话。

不过，知名大佬Haider的评论倒是提供了另一个视角。

谷歌可能并不打算通过跟别人跑同一条赛道来取胜，他们更大的重心在于打造一个更强大的多模态系统，而这需要时间。

通往ASI的飞轮，三家同时踩油门

虽然模型追不上，但谷歌有10亿级分发入口和全时Agent。

Spark一旦铺开，用户的邮件、日程、购物、浏览数据将反哺Gemini的下一代训练。

这是OpenAI和Anthropic都很难复制的打法。

但竞争对手没有闲着。

就在昨天，OpenAI给Codex追加ultrafast模式，速度提升2-3倍，还祭出补贴战，30天内切换的企业2个月免费。3小时内2000名开发者响应。

Anthropic同步放出Opus 4.7 Fast模式，Claude Code额度提升50%。

这场补贴战表面上是抢开发者，底层逻辑比这深得多。

GPT-5.6的开发几乎可以确定是在GPT-5.5的深度参与下进行的。 AI写的代码反哺AI的训练，谁掌握了编程工具的用户，谁就掌握了这个循环的加速器。

三家在三条赛道上同时踩油门。

OpenAI靠迭代速度碾压，三周一个新版本。Anthropic靠模型质量封神，Mythos重新定义了前沿。谷歌靠分发和Agent包抄，把AI塞进10亿人的手机里。

没有人在减速。通往ASI的飞轮，已经开始自转了。

而对于每天都在用这些工具的人来说，这场三巨头的军备竞赛，可能是2026年最划算的一件事。

补贴在加码，额度在提升，模型在变强，价格在下降。

唯一的问题是，你的工作流押对了赛道吗？

参考资料：

https://x.com/alexeheath/status/2054747125616169229

https://www.testingcatalog.com/google-prepares-gemini-spark-ai-agent-ahead-of-i-o-launch/

https://x.com/Lentils80/status/2054628116094501377

本文来自微信公众号“新智元”，编辑：好困，36氪经授权发布。

发布时间：2026-05-15 20:11

上一篇:
光通信大年：“光进铜退”走到哪一步了？
下一篇:
被礼来反超后，诺和诺德牵手OpenAI

©2020 新唐宝版权所有