最强大模型,保质期越来越短了

最近,AI 行业引人瞩目的一幕,发生在资本市场。

二级市场交易中,Anthropic 的报价一度突破 1 万亿美元,隐含估值首次超过 OpenAI。一年前,两者的融资估值还相差近 10 倍,OpenAI 仍是几乎没有争议的行业王者。如今,王者之位已经轮替。

这并不是某一家公司单独的起落,而是整个 AI 行业竞争节奏变化的缩影。过去一年,从模型榜单到用户口碑,再到资本定价,Google、OpenAI、Anthropic这些头部AI公司,轮流站上过"最强"的位置。

被看衰的公司,可能在几个月后重新回到第一梯队;备受追捧的公司,也可能在登顶后很快迎来质疑。「深流研究所」初步统计,从"被追捧"到"被审视",2023年前后,完成这样一个周期大约是12-18个月,现在已缩短到3-6个月。

领先开始变得难以维持,轮转还在继续加快。至于为什么会变成这样,才是这场竞争真正值得关注的部分。

六次易主、三轮反转,"最强"的保质期越来越短了

2025 年至今,LMArena 排行榜上"最强模型"的位置已至少换了 6 次。从 Grok、Gemini、GPT到Claude,四家轮流登顶。

过去,一次领先还能维持几个月。到了 2026 年初,这个周期已经被压缩到不足一个月。类似的快速切换,也发生在公司口碑、市场份额和资本信号上。

Google 的变化最先被感知到。2023 年 Bard 首发翻车,2024 年 AI Overviews 又给出荒诞回答,它一度被视为"大公司病"的代表。转折发生在 2024 年底。Gemini 团队并入 DeepMind,由 Hassabis 统一管理,Google 的 AI 研发力量被重新整合。

此后,Google 的节奏开始恢复。2025 年 9 月,Gemini 登顶 App Store,首次在移动端压过 ChatGPT;11 月 Gemini 3 发布后,"Google 逆袭"开始成为主流叙事。母公司Alphabet 年内股价上涨近 70%,市值重新超过微软。从组织重整到重回第一梯队,Google 用了12 个月。

OpenAI 的变化更能说明问题。2025 年上半年,它还是不可动摇的王者:ChatGPT 周活达到 7 亿,移动端份额 69%。去年 8 月,GPT-5 发布失利成为转折点。直播出错、模型宕机,社区掀起"还我 GPT-4o"运动。此后,OpenAI 的移动端份额以月均 2.2 个百分点的速度下滑,到 2026 年初降至 45%。

今年以来,OpenAI 开始战略收缩。Sora 视频生成、硬件等副线被砍掉,资源重新集中到编程工具和企业市场。如今,它从一家什么都想做的超级实验室,变成一家必须证明商业回报的公司,被市场重新审视。

Anthropic则是这一轮变化中节奏最快的公司。2025 年下半年,Claude 在编程和企业工作流里快速建立口碑,成为开发者圈子里事实上的首选。

进入 2026 年后,Anthropic 又进入一段罕见的密集发布期。12 周内,它完成了近 20 次重大产品更新。密集发版直接推高了业绩:Anthropic 官方披露其年化收入突破 300 亿美元,创下新高;四个月前,这个数字还不到 90 亿美元。

融资曲线上,从 2024 年到 2026 年初,Anthropic 追赶 OpenAI 的速度在加快。

OpenAI 估值仍在创新高——最新一轮投后估值达到 8520 亿美元,但二级市场已经出现约 10% 的折价。今年 4 月,6 家机构试图通过 NextRound 出售合计约 6 亿美元的股份,甚至出现了滞销情况。

反观 Anthropic,估值从 2025 年 3 月的 615 亿美元飙升至 2026 年 2 月 G 轮的 3800 亿美元。更关键的是二级市场:投资者排队抢购,报价一度突破 1 万亿美元,较 G 轮溢价超过 160%,隐含估值已经反超 OpenAI。

Anthropic 登上口碑王座不久,口碑就已开始回调。最近几周,Anthropic 接连被曝出算力不足、在未通知用户的情况下悄悄降低默认推理深度等问题,用户投诉集中爆发,Fortune 也用长篇报道揭开了内部压力。Claude 从"最值得信赖的 AI"到"透明度受质疑",只用了不到两个月。

从 Google 的逆袭,到 OpenAI 的份额流失,再到 Anthropic 的快速上升和随之而来的信任危机,看上去这些公司每一次转向,都有自己的直接原因。真正值得问的是:为什么"领先"本身,越来越难维持?

模型在基础设施化,技术不再是唯一护城河

模型迭代的逻辑已经变了。

2023 年,AI 公司还在按"大版本制"发布模型。GPT-3.5 到 GPT-4 间隔 15 个月,Claude 2 到 Claude 3 间隔也接近一年。每次发布都是行业大事,一个版本足以定义一整年的竞争格局。

到了 2025 年,这个节奏被打破了。GPT-5 发布后的 7 个月里,OpenAI 连续推出 5.1、5.2、5.3、5.4 四个大版本及多个子版本,最短间隔不到一周。Anthropic 5 个月内发了至少 5 个版本。

过去 16 个月,OpenAI、Anthropic 和 Google 合计完成了超过40次重大模型发布,平均每 3 周发布一次大版本模型。模型迭代从"攒大招",变成"小步快跑"。

模型也不再是一款单品。2023 年的 GPT-4 仍是单一旗舰模型。到了 2025 年,GPT-5 系列已经分化出 Instant、Thinking、Pro、Codex、Mini 五个版本,分别覆盖轻量对话、深度推理、编程等不同场景和不同成本带。

Anthropic 和 Google 也都走向了多档位产品矩阵。模型越来越像操作系统,持续迭代、分层供应、按需调用。

这背后是产业逻辑在发生改变。首先是预训练的边际收益在下降。花一年从头训练一个更大的模型,换来的性能提升,可能只剩几个百分点,这已很难支撑"攒一个大版本再发布"的节奏。

相反,微调、推理优化等后训练手段越来越成熟,同一个底座可以不断迭代出新性能,不必重新训练也能做出代际升级。与此同时,推理成本 3 年下降约 1000 倍,开源与闭源的差距缩小到 1.7%。追赶者的起点更高了,领先者的窗口更短了。

更关键的是,头部公司都在完善训练模型的基建。OpenAI 收购训练基础设施公司 Neptune,又和 Cerebras 签下 3 年、总额超过 200 亿美元的芯片协议,开始降低对英伟达的单一依赖;Anthropic 依靠 Constitutional AI,让 AI 参与训练 AI,大幅提升后训练效率;Google 从 TPU 第七代,到 JAX,再到推理服务,几乎把整条链路都握在自己手里。

底层越扎实,上层迭代就越快。这使得过去需要一年做完的模型升级,现在更短的时间就能完成。

一旦模型基础设施化,一次模型发布的领先或落后,就不再决定胜负。单一维度上的技术领先,也越来越难转化为持久优势。

这也是为什么,过去被认为"节奏慢了"的大公司,也有机会靠组织纵深、生态积累、持续发力完成反转。

Meta 就是最新的例子。2025 年上半年,Llama 4 因刷榜争议口碑跌到谷底。之后,Meta 投入 143 亿美元收购 Scale AI、挖来创始人 Alexandr Wang,并把 AI 部门重组为"超级智能实验室"。仅用 9 个月,它就重建了技术栈。2026 年 4 月发布的 Muse Spark,也一改此前的开源路线,转向把闭源模型嵌入 Meta 自有产品生态。

类似的逻辑也在国内上演。腾讯混元过去一年经历了人员调整和方向摸索后,将研发力量收拢,重建了从预训练到强化学习的基础设施。Hy3 preview 是重建后跑出的第一个模型,目前已上线元宝、CodeBuddy、workbuddy、 ima、腾讯新闻、和平精英等十余个腾讯产品。

一个值得注意的细节,Hy3 preview 的预训练、后训练等环节是并行推进的,这也加快了Hy3 preview模型的训练进程。更为重要的是,整个基建和底座搭建完成,混元后续更多模型也将这套基建上启动训练,实现更快迭代。

从性能表现看,Hy3 preview是一个总参数 295B、激活 21B 的 MoE 模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现大幅提升。混元团队给这款模型的定位也很清晰——能力体系化、评测真实性、性价比。

Hy3 preview模型在腾讯内部编程、深度研究等业务评测表现稳定,推理效率较上一代提升约 40%,首token延迟降低54%,端到端时长降低47%,成本较上一代模型大幅下降。这意味着,跟用户体验和落地可行性相关的核心指标均被大幅优化。

同一时间,GPT-5.5和DeepSeek-V4相继发布。DeepSeek-V4 主打"交付质量接近 Claude Opus 4.6 非思考模式"的性价比,而非跑分登顶;GPT-5.5 虽仍是 OpenAI 的旗舰,强调的也不是智能上限,而是"为真实工作而设计"。

三款模型,共性清晰:不再比拼参数和榜单,而是围绕 Agent、编程交付、长上下文和单位任务成本做深化,评测标准也从公开基准转向真实场景。这正是"模型基础设施化”的直接体现。

竞争维度在扩展,优势不再集中在一家公司

模型之外,产品战场同样战况激烈。过去一年多,仅 OpenAI、Anthropic 和 Google 三家,就完成了超过 40 次非模型级的重大产品发布。

三家的打法并不一样。OpenAI 铺得最广,Agent、编程、办公集成和消费端同时推进;Anthropic 最聚焦,仅今年 2 月到 3 月的 52 天里,这家公司就密集推出了 74 款大小产品更新,大部分围绕编程和企业工作流纵深突破;Google 没有从零做新入口,而是把 AI 能力持续嵌入搜索、办公和内容产品。

尽管方向不同,但这些密集布局背后有一个共同的驱动力:当模型能力越来越接近,谁更快把模型接进真实场景,谁就更容易成为用户的默认选择。

Agent 范式的出现,又把这个趋势往前推了一步。AI 不再只是回答问题,而是开始调用工具、执行多步骤任务,直接完成一整条工作流。这意味着,只有好模型已经不够了,还得匹配稳定的执行环境、成熟的工具链、可靠的安全机制,以及把这些东西真正串起来的工程能力。

OpenAI 为此搭建了 Apps SDK 和 AgentKit,试图让开发者更快构建可调用外部工具的 AI 应用;Anthropic 推出 MCP 协议和 Computer Use,前者统一了 AI 与外部数据源的连接方式,后者让 Claude 可以直接操作电脑完成任务。

在国内,OpenClaw 今年 3 月爆火后,大厂的 Agent 布局也迅速提速。

腾讯一周内上线了 WorkBuddy、QClaw、CodeBuddy 等多款 Agent 产品,并围绕 Lighthouse 云端部署、ADP 智能体开发平台、安全沙箱等能力搭起了一整套 Agent 基础设施,是动作最敏捷的大厂之一。字节跳动上线了云端方案 ArkClaw,此前已推出 Agent 开发平台扣子和 AI 编程工具 TRAE;阿里也推出了开源桌面 Agent 工具 QwenPaw。

这场竞争的门槛,已经不只在模型本身,而在模型之外的工程化交付能力。腾讯集团高级执行副总裁汤道生近期也提到,"AI 落地不只是一道算法题,更是一道工程题"。主流模型之间的能力差距在收敛,真正拉开差距的,是谁能把 AI 放进具体场景里,并把链路做深、做稳、做顺。

这也意味着,竞争形态已经变了。过去,大家追求的是全面领先;现在,越来越多公司追求的是局部优势。Anthropic 是最典型的例子。它并不试图在所有维度上压过 OpenAI,而是把编程和企业工作流做到开发者首选,最终用场景深度换来了市场份额反超。

场景理解、工具链和用户粘性,这些东西比模型跑分更难复制,也更难追平。谁在自己的主场打得更深,谁的位置就更稳。"阶段性占优"正在取代"长期统治",成为这个行业更真实的常态。

军备竞赛继续加速,AI 比拼从"谁最强"走向"谁最持久"

2026 年,仅 Amazon、Google、Meta 和 Microsoft 四家的 AI 资本支出,就预计达到 5870 亿至 6700 亿美元,接近 2025 年的两倍。真正值得注意的,不只是规模,而是钱花在了哪里。

过去三年,AI 竞赛的瓶颈几乎每年都在变。2023 年,核心问题是谁先训练出最强模型;2024 年,瓶颈变成 GPU 供应,H100 一卡难求;2025 年,推理算力成为新卡点,推理在 AI 算力支出中的占比从 33% 翻倍至 66%。

到了 2026 年,瓶颈继续往下沉,落到电力和物理基建。全球数据中心年耗电量预计突破 1000 TWh,接近日本全国一年的用电量;有机构预测,未来三年美国数据中心的电力缺口高达 47 GW。

现在,每投入 1 美元做 AI,背后大约还要配套 2.3 美元的基础设施支出。今天的 AI 军备竞赛,大部分钱已经不是花在模型上。

这改变了AI行业的竞争逻辑。决定一家公司能否继续扩张、谁会被迫减速的,越来越不只是模型能力,而是电力、数据中心和交付能力。

拥有自建基础设施的平台公司,因此获得了结构性优势。相反,纯模型公司一旦用户增长超出基建承载力,就可能被物理瓶颈卡住。

Anthropic 今年的算力危机就是最直接的例子:模型赢了,收入创了历史新高,但基础设施没跟上,最终被迫下调输出质量。领先本身,反而可能成为负担。

巨额投入也在同步抬高市场预期。尽管四大巨头计划支出超过 6500 亿美元,近一半美国数据中心项目仍可能因为电力设备短缺而延期或取消。到现在为止,还没有哪家 AI 公司真正证明了持续、规模化的正向 ROI。

钱投得越多,市场的容错率可能就越低;预期越高,一次产品事故或一次交付失速带来的口碑损伤就越大。

过去,市场习惯用一个简单框架理解 AI 公司:谁的模型最强,谁就会赢。如今,真正决定市场评价的,不再只是模型跑分,而是一组更复杂的变量:推理能力有没有跃迁,Agent 能力是否可感知,商业模式能否可持续,生态壁垒是否足够高。

一家公司在一段时间里发布节奏失焦、体验不及预期、对外叙事脱离用户和开发者体感,就可能从"默认赢家"变成"被重新审视的对象"

反过来,一家公司如果能在关键窗口里同时做到模型能力明显提升、工具链和工作流补齐、再拿出几个强信号产品接住体验,也有机会完成一轮口碑反转,获得阶段性优势。

技术趋同,让"最强"失去决定性意义;竞争外溢,让"统治"失去稳定基础;资本加速,则让市场预期变得更高。

三层变化叠在一起,AI 行业进入了一个结构性的快速轮转期。领先的保质期在缩短,行业也正在从"谁最强"的时代,走向"谁最持久"的时代。

本文来自微信公众号“深流研究所”,作者:绛枫,36氪经授权发布。

发布时间:2026-04-27 12:04