就在刚刚,Gemini 3.5提前曝光了!
网友Lentils放出最新消息,代号「Cappuccino」的Gemini 3.5 Pro检查点已经开始产出。
而就在几个小时前,传闻还是Gemini 3.2,没想到一下子就替换成了Gemini 3.5。
从3.2到3.5的跳级命名,谷歌显然想在I/O上讲一个更大的故事。
前一天,知名爆料人can率先晒出了首批输出。
一个是DualShock 4手柄的交互式蓝图拆解,另一个是鹈鹕骑自行车的矢量插画,自带7维定制面板,车架颜色、光照、头饰、篮筐内容、蹬车速度全部实时切换。
从截图来看,这已经不是简单的SVG了,而是一个prompt生成的完整交互式Web应用!
Abacus.AI CEO Bindu Reddy随后放出的数据更炸——
3.2 Flash在编码和推理上达到GPT-5.5的92%,成本却便宜15到20倍。
不仅如此,谷歌全新的全时Agent「Gemini Spark」也被扒了出来。
可以看到,它不仅能全天候待命,帮你管邮件、跑任务,甚至可能不问你就替你下单。
然而就在此时,Alex Heath的独家爆料,却狠狠地泼了一盆冷水——
新款Gemini的性能,最多只能追平OpenAI的GPT-5.5……
先看好消息。
以前Gemini生成SVG,社区最常用的吐槽就一个字,「懒」。给一个prompt,出一个敷衍结果。
但这次不一样了。
网友Lentils只用了一个简单提示,Gemini就直接出了4个风格各异、细节拉满的Robot SVG。
同期泄露的3.5 Flash也印证了这个趋势。
LM Arena的匿名跑分显示,Flash在SVG生成、交互式3D编码和动画处理上已经超过了3.1 Pro。
换句话说,谷歌的蒸馏加稀疏化技术正在收获回报,把前沿模型压成了轻量版,质量断崖却没出现。
同一天的另一个重磅泄露是「Gemini Spark BETA」。
根据爆料,Spark的定位是「你的日常AI智能体,全天候待命」。
一个24小时全时运转的AI Agent,帮你处理收件箱、执行在线任务、管理多步骤工作流。
Spark的数据来源清单让人倒吸一口气。
已连接的Google应用、技能模块、聊天记录、定时任务、你登录的网站、Personal Intelligence、位置信息。
Gemini会把你的姓名、联系方式、文件、偏好等信息分享给第三方来完成任务。
此外,为了保持会话连续性,系统还会保存远程浏览器数据,包括登录凭证和远程代码执行数据。
不过值得注意的是,Spark虽然设计上会在敏感操作前征求许可,但它「可能在未经询问的情况下分享你的信息或完成购买」。
也就是说,它可能不问你就下单,也可能不问你就把信息分享出去。
Spark的前身是谷歌内部代号「Remy」的Agent升级版,此前只面向AI Ultra订阅用户。
从Remy到Spark,Gemini的Agent从「一个功能」一步升格为「24/7的数字生活管家」。
这正面对标Anthropic即将发布的托管Agent Conway,以及OpenAI已经上线的24/7 Agent平台。
好消息到此结束。
根据Alex Heath从多个信源处得到的确认,下周二发布的新Gemini,大致落在GPT-5.5这个档位,距离Mythos还有明显差距。
想当初,刚发布的Gemini 3凭借着LMArena 1501 Elo,几乎扫了所有主流排行榜第一。
半年过去,GPT-5.5、Opus 4.7、Mythos相继发布后,格局已经被彻底改写。
英国AI安全研究所的评测显示,Mythos是第一个同时通过其两套网络安全测试范围的模型,GPT-5.5只通过了一套。
AISI甚至承认,评测框架已经快跟不上Mythos的能力了。
回到谷歌这边,根据网友Fandu扒到的模型选择器的最新界面,新款Gemini很可能原生支持MCP第三方工具接入,Thinking模式也将全面重构。
可以看到,除了3.1 Flash-Lite、3 Flash、3.1 Pro这几个大家熟知的模型外,还多了一个从未见过的分类「MCP Tool Testing」,也就是「可用于MCP工具测试的模型」。
思维模式也从原来的独立Thinking模式,变成了全局开关,分Standard(适合大多数问题)和Extended(求解复杂问题)两档。
Heath的爆料中,编程部分的措辞最重。
他说,DeepMind内部正面临着切实的压力,尤其是在编程能力方面需要迎头赶上。
追赶目标很明确,Anthropic。过去一年,Claude在开发者群体中坐稳了默认选项。
新Gemini会包含编程改进,但在Heath的信源里,没有一个人认为会带来质变。
谷歌的AI编程平台Antigravity,内部用得很多,但在外部市场一直没能突围。
4个月6%的开发者采用率,对一个IDE来说不算慢,但跟Claude Code和Codex的势头比差距明显。
问题出在哪?
XDA的一篇月度评测试了三个工具做同一个任务。
Claude Code第一次就准确理解了复杂创意提示。而Antigravity的输出却像是用「微软画图」做出来的涂鸦。
此外,Antigravity的定价策略也让开发者头疼。
谷歌已经多次调整定价模型,从免费预览到信用点制度,社区论坛上关于额度用完没提醒的抱怨一直没断过。
但最为关键的在于,如今AI编程已经彻底出圈了。
不管Claude Cowork,还是OpenAI的Codex,都能让不会写代码的人用得飞起——
产品经理用自然语言描述需求,直接得到可运行的原型。设计师把Figma稿丢进去,拿到前端代码。
然而到目前为止,谷歌都没有任何产品能够进入这个对话。
不过,知名大佬Haider的评论倒是提供了另一个视角。
谷歌可能并不打算通过跟别人跑同一条赛道来取胜,他们更大的重心在于打造一个更强大的多模态系统,而这需要时间。
虽然模型追不上,但谷歌有10亿级分发入口和全时Agent。
Spark一旦铺开,用户的邮件、日程、购物、浏览数据将反哺Gemini的下一代训练。
这是OpenAI和Anthropic都很难复制的打法。
但竞争对手没有闲着。
就在昨天,OpenAI给Codex追加ultrafast模式,速度提升2-3倍,还祭出补贴战,30天内切换的企业2个月免费。3小时内2000名开发者响应。
Anthropic同步放出Opus 4.7 Fast模式,Claude Code额度提升50%。
这场补贴战表面上是抢开发者,底层逻辑比这深得多。
GPT-5.6的开发几乎可以确定是在GPT-5.5的深度参与下进行的。 AI写的代码反哺AI的训练,谁掌握了编程工具的用户,谁就掌握了这个循环的加速器。
三家在三条赛道上同时踩油门。
OpenAI靠迭代速度碾压,三周一个新版本。Anthropic靠模型质量封神,Mythos重新定义了前沿。谷歌靠分发和Agent包抄,把AI塞进10亿人的手机里。
没有人在减速。通往ASI的飞轮,已经开始自转了。
而对于每天都在用这些工具的人来说,这场三巨头的军备竞赛,可能是2026年最划算的一件事。
补贴在加码,额度在提升,模型在变强,价格在下降。
唯一的问题是,你的工作流押对了赛道吗?
参考资料:
https://x.com/alexeheath/status/2054747125616169229
https://www.testingcatalog.com/google-prepares-gemini-spark-ai-agent-ahead-of-i-o-launch/
https://x.com/Lentils80/status/2054628116094501377
本文来自微信公众号“新智元”,编辑:好困 ,36氪经授权发布。
发布时间:2026-05-15 20:11