Anthropic 顶级研究员：AI 进入指数增长，你需要看懂这三件事-新糖宝胶囊官方网站

2025 年 10 月 25 日，一位鲜少公开露面的 AI 顶级研究员在播客中给出判断

AI 没有任何放缓的迹象。每三四个月，模型就能完成两倍长的任务。

说这话的是Julian Schrittwieser， Anthropic 核心研究员，他曾在谷歌DeepMind 领导了AlphaGo Zero 和 MuZero 的研发。

这不是科普访谈。他来自最前沿的实验室，正目睹一个大多数人还没意识到的现实：

大众看到的：回答对了几个问题

他看到的：模型开始完成一整天的工作

为什么察觉不到？

Julian 给出的答案是：人类直觉无法理解指数级变化。

（图片来源：Julian Schrittwieser博文《再次未能理解指数增长》，链接https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/）

就像疫情初期人们低估传播速度，AI 正在走同样的路径。当模型每三、四个月能力翻倍，关键不在于它有多强，而在于你看不看得懂正在发生的三件事。

第一节｜模型能跑多久，才是关键

Julian Schrittwieser 的职业轨迹，几乎串起了这十年人工智能的主线。

他曾让 AlphaGo 击败李世石，是 MuZero 的第一作者，如今在 Anthropic 负责Claude 模型的推理研究。

“AI 的关键，不在于能答多少题，而在于能连续完成多长时间的任务。”

在他眼中，AI 的进步不是一连串“功能升级”，而是任务持续时间的延长。从几秒、几分钟，到现在能处理几个小时、甚至几天的连续任务。

Julian 在访谈中解释，这个指标叫 task length（任务长度），是他们在 Anthropic 内部用来衡量模型“生产力水平”的核心标准。他们发现，每隔三四个月，任务长度就会翻倍。模型不像人类那样受疲劳影响，能持续思考、持续执行，而且出错率在长任务中反而下降。

他举了一个例子：以前的模型写一段程序，需要人类不断提示；现在，Claude 已经能独立写完一个完整的应用模块，包括规划结构、调用接口、测试和修复。

这不是更聪明，而是能干更久、更稳。

就像马拉松选手，关键不是冲刺速度，而是跑完全程的耐力。

Julian 认为，这种“任务耐力”的提升，比参数量更值得关注。因为这意味着模型从工具，开始变成执行者。当模型能独立工作一整天，它就能像同事一样被分配任务、被追踪进度、被验证成果。

Anthropic 内部对 Claude 的连续任务评估显示，模型能在无人干预的情况下，连续工作 6 到 8 小时，完成从写代码到总结文档的一整套流程。

Julian 强调：

“我们没在等‘超级智能’来，只是看着任务长度从一分钟变成一整天。”

当外界还在讨论 AI 会不会替代人，实验室里已经在问：它今天能干多长时间？

第二节｜Claude 的底层能力，不是记得多

“不是每个模型都能独立完成任务，更不是每个模型都能连续工作一整天。 ”

Julian 解释，Claude 能力的本质，不只是语言模型更大，而是多了一种“预演未来”的能力。

“Claude 背后的关键不是参数量，而是它内部有一个‘世界模型’，能模拟未来几步可能会发生什么。”

这个“世界模型”（world model），不是在记住数据，也不是预测词。它更像是人在脑子里想象：我如果说这句话，对方可能怎么反应？那我接下来该怎么办？

Julian 说，这种模型已经不是在“回答”，而是在“思考”。

这种能力，其实是他在 MuZero 时期就开始探索的技术路线。

MuZero 是 DeepMind 在 2020 年提出的强化学习模型，最大的突破在于：它不需要知道完整的规则或环境，只靠经验就能学会在脑中预测接下来的几步，并不断修正。

Julian 总结这套方法时，说：

人类不会事先记住整个世界，而是通过想象下一步的结果，来决定行动。AI也应该这样。

这就是 Claude 不同的地方：它不再是一个生成句子的工具，而是一个能够模拟因果、进行试探、修正路径的行动者。

要实现这种“预演”，靠的不是单一的预训练，而是训练之后的强化学习。强化学习的过程，就像让模型反复练习，直到它学会自己做判断、走对流程。

预训练让模型掌握知识，强化学习让它学会执行任务。

换句话说，一个是“知道答案”，一个是“找到通往答案的路径”。没有强化学习，模型即使知道答案，也无法自己找到那条通往答案的路径。

他提到 Claude 的一个实验：给模型一个复杂任务，比如写一段带测试的 API 代码，要求它：

自己规划写法；
判断什么时候用哪个函数；
在出错时自己调试；
最后输出一段可运行的代码。

Claude 做到了，而且中间几次纠错都是它自己意识到问题并重写的。

这种能力来自世界模型与强化学习的结合：模型不再只是回答问题，而是能在内部推演路径、拆解任务、预判结果、修正错误。

它已经从语言模型，进化成了行动模型。

第三节｜从回答到接活：Claude 能干事了

Claude 和以往的语言模型有什么不同？

Julian 的回答非常简单：

Claude 不是聊天机器人了，而是你可以交任务给它做的执行者。

他说，在Anthropic内部，他们早已不再用 Claude 做“答题器”，而是让它处理真实任务，比如：

写一段可运行的 API 代码

阅读上千字的PDF文件，总结并列出关键要点

执行一整套文档处理流程，包括改写、格式化、生成摘要

更重要的是，这些任务由Claude分阶段自主完成，无需人工干预。

Julian 指出，过去几年行业里流行的“提示工程”（prompt engineering），本质上是人类给模型设好路，让它照着走。但今天，Claude 的核心能力是“承接任务”：你不需要一步步指挥它，而是给出目标，它会自己拆分、执行、复查、完成。

这正是智能体（agent）开始成型的关键特征。

它不是靠记忆做题，而是靠连续思考和行动完成任务。

他举了 Claude Code 和 Claude Agent SDK 的例子。这是 Anthropic 最近内部重构的两项重点模块，目标就是：让模型能像数字员工一样处理长流程、多步骤任务。

Claude Code 能做到：

在你没有写完整需求文档的情况下，推理出应该怎么搭建功能

自己在代码中加入调试语句，定位 bug
写完代码后，为你生成测试样例
根据测试结果，再自动改写逻辑

而 Claude Agent SDK 更进一步，它能执行更复杂的多步任务，比如：

打开工具 → 查找资料 → 写入文档 → 检查输出 → 清理中间结果
如果流程中途失败，会自动记录失败原因并尝试重试

Julian 这样描述：你现在给 Claude 的不是一句话的问题，而是一张任务清单。

而这正是 Claude 与传统模型之间最本质的区别：传统模型只负责回答问题，依赖提示指令，完成单轮互动；而 Claude 已经能自主分解任务、多轮执行、自我纠错。

它已经从工具，变成了能交付成果的合作者。

第四节｜做对一遍容易，做对十遍难

如果说 Claude 已经能干活，那接下来的问题就是：它每次都能顺利做完吗？

Julian 给出的答案是：不一定。

他说，这正是今天做智能体最现实的挑战：

我们并不是担心模型不够聪明，而是它能不能稳定地把任务做完、不出错、不走偏。

AI 不是没有能力，而是太容易被小问题打断。

比如：

在一个文档流程中，模型前半段处理得很好，但后半段突然格式错乱；

在执行某个代码改写任务时，模型一开始理解正确，后来却忘记了最初的目标；

或者某个环节失败了，模型没有判断出错在哪里，继续错下去。

核心症结在于：预训练学到的知识很多，但它不会告诉你“什么时候要停下来”，也不会告诉你“这一步走得对不对”。

也就是说，模型并不是真的知道自己在做什么。

这时，Anthropic 的做法，是引入“强化学习”和“行为奖励”，让模型在每一步执行中有反馈、有方向感。

但这件事比想象中难得多。

强化学习有一个“反馈回路”：你训练出的模型，会用来产生新的训练数据，如果某个环节出了偏差，整个链条就会跑偏。

这和预训练完全不同。预训练像是在填空，目标是确定的；强化学习更像是在走一条不断修正方向的迷宫，每一步走错，都可能让模型偏离轨道。

所以 Anthropic 开始尝试几种解决方式。

第一种叫过程奖励（process-based reward），

不只是看最终结果对不对，而是给模型每一步都设一个参考点。

与其只奖励模型最后做出好答案，不如在它每一次推理、每一个中间步骤上，给出反馈。这就像老师不仅看你做出对的答案，还看你解题的过程。

第二种方法是自我验证。

Anthropic 在一些数学任务和代码任务中，让模型生成答案之后，自己反过来验证一遍。比如写一段证明，模型必须能自己检查逻辑有没有漏洞，才能得分。

这样能大大减少模型表面做对、实际做错的情况。

第三种，是在模型的“行为链”里加入错误修正机制。

“一个模型真正厉害的标志，不是它不会犯错，而是它知道自己错了，并主动改正。”

Anthropic 让 Claude 在任务中途，如果出现异常结果，能主动暂停、记录失败原因、重试流程。有点像你工作中一边做一边留备份，出错了能回退。

Julian 坦言，这些尝试仍然在早期：我们还在探索如何让这些方法更稳定、可规模化。这就是所以智能体要跨过去的一道坎，关键不在能力，而在可靠性和执行的稳定性。

今天的挑战不是模型太笨，而是它太容易因失误而偏离轨道。

第五节｜节奏在加快，窗口期已经开始

在这场深度对话中，Julian反复强调三件关键事实：

任务在变长- 每三四个月，模型能独立完成的任务长度就翻倍

模型在干活- AI已经从回答问题进化到执行任务

节奏在加快- 不是十年后才改变，而是现在就要重构工作方式

那么，我们该如何判断这个趋势？他的回答是：

不要靠情绪、热度、感觉来判断 AI 发展到了哪一步。看任务，看数据，看它到底做了什么。

在他看来，现在市场上对 AI 的讨论，很多都停留在“是不是泡沫”“是不是突破”这些模糊话题上。但前沿实验室看的是：

模型能不能完成真实任务？

完成得有没有提高？

交给它之后有没有人持续使用？

这就是 Anthropic、OpenAI 和 Google 当前内部真正关注的评估维度。

比如 OpenAI 推出的 GDP-Val，就是让真实行业专家设计任务，让模型来完成，然后和真人的成果对比。不是看模型“答题得分”，而是看它是否具备实际完成工作的能力。

Julian 特别指出两个指标，是当前最有参考价值的：

一是任务长度

AI 能连续工作多久？是 10 分钟，还是一整天？

模型完成任务的时间越长，就代表你可以托付的范围越大，节省的人工就越多。

二是用户留存与复用

不是模型能不能用，而是大家愿不愿意持续用、是不是开始形成依赖。

你发布一个新模型，几天后用户就不再用了，那这个模型可能只是看起来强大，真正能持续产生生产力的 AI，一定会有使用量和留存增长。

当任务长度越来越长，用户使用频次越来越高，那说明 AI 不再是“功能”，而是开始成为“劳动力”。

那么，你该怎么办？

不是要做判断，而是去做实验。

把一项你平常要做 4 小时的任务交给 AI，试试看它能做多少，做得多好。连续做几次，你自然知道现在 AI 到哪了。

他说，自己每天都在做这样的尝试，每次的表现都在提升：完成得更多，失败更少。

也正因如此，他认为：2025年，不是超级智能来了，而是我们终于可以重构任务。把原来需要人一步步完成的流程，交给模型切块处理；把以前要人工推进的工作，设计成可以交代给 AI 的清单。

不是替代，而是重构“怎么完成任务”的方式。

结语｜不是“AI 超人类”，而是“AI 搭班子”

在 AlphaGo“第37手”到今天的 Claude，Julian 见证了 AI 能力的指数级增长。

但他的建议始终务实：

“不要只看发布会和排行榜，要看模型能不能连续工作八小时不出错。不要期待一次性替代，要练习把任务清单交给 AI。”

更重要的是：不是等待突破，而是现在就开始搭建“AI+人”的协作团队。

因为当任务在变长，当模型在干活，当窗口期已经打开，

改变不在未来，就在当下。

参考资料：

https://www.youtube.com/watch?v=gTlxCrsUcFM&t=54s

https://ppc.land/ai-researcher-challenges-claims-of-development-slowdown-with-exponential-data

https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

来源：官方媒体/网络新闻

本文来自微信公众号“AI 深度研究员”，作者：AI深度研究员，编辑：深思，36氪经授权发布。

发布时间：2025-10-28 10:02

上一篇:
AI时代，组织人才出现断层怎么办？
下一篇:
智驾合规元年的蝴蝶风暴

Anthropic 顶级研究员：AI 进入指数增长，你需要看懂这三件事