2025 年 10 月 25 日,一位鲜少公开露面的 AI 顶级研究员在播客中给出判断
AI 没有任何放缓的迹象。每三四个月,模型就能完成两倍长的任务。
说这话的是Julian Schrittwieser, Anthropic 核心研究员,他曾在谷歌DeepMind 领导了AlphaGo Zero 和 MuZero 的研发。
这不是科普访谈。他来自最前沿的实验室,正目睹一个大多数人还没意识到的现实:
大众看到的:回答对了几个问题
他看到的:模型开始完成一整天的工作
为什么察觉不到?
Julian 给出的答案是:人类直觉无法理解指数级变化。
(图片来源:Julian Schrittwieser博文《再次未能理解指数增长》,链接https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/)
就像疫情初期人们低估传播速度,AI 正在走同样的路径。当模型每三、四个月能力翻倍,关键不在于它有多强,而在于你看不看得懂正在发生的三件事。
Julian Schrittwieser 的职业轨迹,几乎串起了这十年人工智能的主线。
他曾让 AlphaGo 击败李世石,是 MuZero 的第一作者,如今在 Anthropic 负责Claude 模型的推理研究。
“AI 的关键,不在于能答多少题,而在于能连续完成多长时间的任务。”
在他眼中,AI 的进步不是一连串“功能升级”,而是任务持续时间的延长。从几秒、几分钟,到现在能处理几个小时、甚至几天的连续任务。
Julian 在访谈中解释,这个指标叫 task length(任务长度),是他们在 Anthropic 内部用来衡量模型“生产力水平”的核心标准。他们发现,每隔三四个月,任务长度就会翻倍。模型不像人类那样受疲劳影响,能持续思考、持续执行,而且出错率在长任务中反而下降。
他举了一个例子: 以前的模型写一段程序,需要人类不断提示; 现在,Claude 已经能独立写完一个完整的应用模块, 包括规划结构、调用接口、测试和修复。
这不是更聪明,而是能干更久、更稳。
就像马拉松选手,关键不是冲刺速度,而是跑完全程的耐力。
Julian 认为,这种“任务耐力”的提升,比参数量更值得关注。因为这意味着模型从工具,开始变成执行者。当模型能独立工作一整天,它就能像同事一样被分配任务、被追踪进度、被验证成果。
Anthropic 内部对 Claude 的连续任务评估显示,模型能在无人干预的情况下,连续工作 6 到 8 小时,完成从写代码到总结文档的一整套流程。
Julian 强调:
“我们没在等‘超级智能’来,只是看着任务长度从一分钟变成一整天。”
当外界还在讨论 AI 会不会替代人,实验室里已经在问: 它今天能干多长时间?
“不是每个模型都能独立完成任务,更不是每个模型都能连续工作一整天。 ”
Julian 解释,Claude 能力的本质,不只是语言模型更大,而是多了一种“预演未来”的能力。
“Claude 背后的关键不是参数量,而是它内部有一个‘世界模型’,能模拟未来几步可能会发生什么。”
这个“世界模型”(world model),不是在记住数据,也不是预测词。 它更像是人在脑子里想象:我如果说这句话,对方可能怎么反应?那我接下来该怎么办?
Julian 说,这种模型已经不是在“回答”,而是在“思考”。
这种能力,其实是他在 MuZero 时期就开始探索的技术路线。
MuZero 是 DeepMind 在 2020 年提出的强化学习模型,最大的突破在于:它不需要知道完整的规则或环境,只靠经验就能学会在脑中预测接下来的几步,并不断修正。
Julian 总结这套方法时,说:
人类不会事先记住整个世界,而是通过想象下一步的结果,来决定行动。AI也应该这样。
这就是 Claude 不同的地方:它不再是一个生成句子的工具,而是一个能够模拟因果、进行试探、修正路径的行动者。
要实现这种“预演”,靠的不是单一的预训练,而是训练之后的强化学习。强化学习的过程,就像让模型反复练习,直到它学会自己做判断、走对流程。
预训练让模型掌握知识,强化学习让它学会执行任务。
换句话说,一个是“知道答案”,一个是“找到通往答案的路径”。没有强化学习,模型即使知道答案,也无法自己找到那条通往答案的路径。
他提到 Claude 的一个实验:给模型一个复杂任务,比如写一段带测试的 API 代码,要求它:
Claude 做到了,而且中间几次纠错都是它自己意识到问题并重写的。
这种能力来自世界模型与强化学习的结合:模型不再只是回答问题,而是能在内部推演路径、拆解任务、预判结果、修正错误。
它已经从语言模型,进化成了行动模型。
Claude 和以往的语言模型有什么不同?
Julian 的回答非常简单:
Claude 不是聊天机器人了,而是你可以交任务给它做的执行者。
他说,在Anthropic内部,他们早已不再用 Claude 做“答题器”,而是让它处理真实任务,比如:
写一段可运行的 API 代码
阅读上千字的PDF文件,总结并列出关键要点
执行一整套文档处理流程,包括改写、格式化、生成摘要
更重要的是,这些任务由Claude分阶段自主完成,无需人工干预。
Julian 指出,过去几年行业里流行的“提示工程”(prompt engineering),本质上是人类给模型设好路,让它照着走。 但今天,Claude 的核心能力是“承接任务”:你不需要一步步指挥它,而是给出目标,它会自己拆分、执行、复查、完成。
这正是智能体(agent)开始成型的关键特征。
它不是靠记忆做题,而是靠连续思考和行动完成任务。
他举了 Claude Code 和 Claude Agent SDK 的例子。 这是 Anthropic 最近内部重构的两项重点模块,目标就是:让模型能像数字员工一样处理长流程、多步骤任务。
Claude Code 能做到:
在你没有写完整需求文档的情况下,推理出应该怎么搭建功能
而 Claude Agent SDK 更进一步,它能执行更复杂的多步任务,比如:
Julian 这样描述:你现在给 Claude 的不是一句话的问题,而是一张任务清单。
而这正是 Claude 与传统模型之间最本质的区别:传统模型只负责回答问题,依赖提示指令,完成单轮互动;而 Claude 已经能自主分解任务、多轮执行、自我纠错。
它已经从工具,变成了能交付成果的合作者。
如果说 Claude 已经能干活,那接下来的问题就是:它每次都能顺利做完吗?
Julian 给出的答案是:不一定。
他说,这正是今天做智能体最现实的挑战:
我们并不是担心模型不够聪明,而是它能不能稳定地把任务做完、不出错、不走偏。
AI 不是没有能力,而是太容易被小问题打断。
比如:
在一个文档流程中,模型前半段处理得很好,但后半段突然格式错乱;
在执行某个代码改写任务时,模型一开始理解正确,后来却忘记了最初的目标;
或者某个环节失败了,模型没有判断出错在哪里,继续错下去。
核心症结在于:预训练学到的知识很多,但它不会告诉你“什么时候要停下来”,也不会告诉你“这一步走得对不对”。
也就是说,模型并不是真的知道自己在做什么。
这时,Anthropic 的做法,是引入“强化学习”和“行为奖励”,让模型在每一步执行中有反馈、有方向感。
但这件事比想象中难得多。
强化学习有一个“反馈回路”:你训练出的模型,会用来产生新的训练数据,如果某个环节出了偏差,整个链条就会跑偏。
这和预训练完全不同。预训练像是在填空,目标是确定的;强化学习更像是在走一条不断修正方向的迷宫,每一步走错,都可能让模型偏离轨道。
所以 Anthropic 开始尝试几种解决方式。
第一种叫过程奖励(process-based reward),
不只是看最终结果对不对,而是给模型每一步都设一个参考点。
与其只奖励模型最后做出好答案,不如在它每一次推理、每一个中间步骤上,给出反馈。这就像老师不仅看你做出对的答案,还看你解题的过程。
第二种方法是自我验证。
Anthropic 在一些数学任务和代码任务中,让模型生成答案之后,自己反过来验证一遍。比如写一段证明,模型必须能自己检查逻辑有没有漏洞,才能得分。
这样能大大减少模型表面做对、实际做错的情况。
第三种,是在模型的“行为链”里加入错误修正机制。
“一个模型真正厉害的标志,不是它不会犯错,而是它知道自己错了,并主动改正。”
Anthropic 让 Claude 在任务中途,如果出现异常结果,能主动暂停、记录失败原因、重试流程。有点像你工作中一边做一边留备份,出错了能回退。
Julian 坦言,这些尝试仍然在早期:我们还在探索如何让这些方法更稳定、可规模化。这就是所以智能体要跨过去的一道坎,关键不在能力,而在可靠性和执行的稳定性。
今天的挑战不是模型太笨,而是它太容易因失误而偏离轨道。
在这场深度对话中,Julian反复强调三件关键事实:
任务在变长- 每三四个月,模型能独立完成的任务长度就翻倍
模型在干活- AI已经从回答问题进化到执行任务
节奏在加快- 不是十年后才改变,而是现在就要重构工作方式
那么,我们该如何判断这个趋势?他的回答是:
不要靠情绪、热度、感觉来判断 AI 发展到了哪一步。看任务,看数据,看它到底做了什么。
在他看来,现在市场上对 AI 的讨论,很多都停留在“是不是泡沫”“是不是突破”这些模糊话题上。但前沿实验室看的是:
模型能不能完成真实任务?
完成得有没有提高?
交给它之后有没有人持续使用?
这就是 Anthropic、OpenAI 和 Google 当前内部真正关注的评估维度。
比如 OpenAI 推出的 GDP-Val,就是让真实行业专家设计任务,让模型来完成,然后和真人的成果对比。不是看模型“答题得分”,而是看它是否具备实际完成工作的能力。
Julian 特别指出两个指标,是当前最有参考价值的:
一是 任务长度
AI 能连续工作多久?是 10 分钟,还是一整天?
模型完成任务的时间越长,就代表你可以托付的范围越大,节省的人工就越多。
二是 用户留存与复用
不是模型能不能用,而是大家愿不愿意持续用、是不是开始形成依赖。
你发布一个新模型,几天后用户就不再用了,那这个模型可能只是看起来强大,真正能持续产生生产力的 AI,一定会有使用量和留存增长。
当任务长度越来越长,用户使用频次越来越高,那说明 AI 不再是“功能”,而是开始成为“劳动力”。
那么,你该怎么办?
不是要做判断,而是去做实验。
把一项你平常要做 4 小时的任务交给 AI,试试看它能做多少,做得多好。连续做几次,你自然知道现在 AI 到哪了。
他说,自己每天都在做这样的尝试,每次的表现都在提升:完成得更多,失败更少。
也正因如此,他认为:2025年,不是超级智能来了,而是我们终于可以重构任务。把原来需要人一步步完成的流程,交给模型切块处理;把以前要人工推进的工作,设计成可以交代给 AI 的清单。
不是替代,而是重构“怎么完成任务”的方式。
在 AlphaGo“第37手”到今天的 Claude,Julian 见证了 AI 能力的指数级增长。
但他的建议始终务实:
“不要只看发布会和排行榜,要看模型能不能连续工作八小时不出错。不要期待一次性替代,要练习把任务清单交给 AI。”
更重要的是:不是等待突破,而是现在就开始搭建“AI+人”的协作团队。
因为当任务在变长,当模型在干活,当窗口期已经打开,
改变不在未来,就在当下。
参考资料:
https://www.youtube.com/watch?v=gTlxCrsUcFM&t=54s
https://ppc.land/ai-researcher-challenges-claims-of-development-slowdown-with-exponential-data
https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/
来源:官方媒体/网络新闻
本文来自微信公众号“AI 深度研究员”,作者:AI深度研究员,编辑:深思,36氪经授权发布。
发布时间:2025-10-28 10:02