DeepSeek研究员陈德里,在个人博客更新一篇研究综述论文。
1%是我写的,99%是Agent写的。
用的是他自己的技能DeliAutoResearch,DeepSeek-V4-Pro研究和写作,GPT-Image2画图。
论文共迭代6次(V1:4 次,V2:1 次,V3:1 次),总耗时6天,进行了约108轮Agent调用,消耗64.8万token,写了2234行LaTeX代码。
103个参考文献,全部已验证。论文现为46页,538KB,含7个图表+4个表格。
论文讲的是自动研究智能体L1–L5自主度分类体系的事:
陈德里认为,Code Agent导致计算机科学论文数量疯狂膨胀,同样的工作以前至少需要一个月才能完成。
但现在,他的碳基大脑处理这个问题的“总CPU时间”不到2小时。
他也写了一句免责声明:观点仅为个人所有,不代表任何组织。
基础模型推动AI工具从研究辅助转向自主研究,但领域缺乏统一框架、术语混乱、评估标准不一。
陈德里和它的AI合著者们提出了一个L1-L5的自主分级体系。
类比自动驾驶的SAE级别,把混乱的AI Agent领域理出了清晰的谱系。
目前行业前沿初步达到L4,L5还只是个设想。
论文认为真正的瓶颈不是模型能力,而是「持续知识积累」和「可靠自我评估」。
除了按自主性级别,论文中又按智能体架构总结了4种主流模式。
单智能体循环
早期研究ReAct、Reflexion、LATS、思维树等为代表。单模型迭代推理-行动-观察,简单高效,但复杂任务能力有限。
多智能体协作
早期智能体框架CAMEL、AutoGen、MetaGPT等为代表,特点是分工协作、多视角纠错,成本较高,沟通易混乱。
分层调度
Claude Code和Devin等为代表,分层规划、任务分解,适合长时程复杂研究。
工具增强执行
SWE-Agent等为代表,核心工具有代码执行环境、网页浏览、API / 数据库、多模态工具,Agent-Computer Interface(ACI) 的设计直接影响性能。
论文四种模式不是谁优谁劣,而是针对特定的任务要选择合适的工具。
如简单短任务选单智能体循环(低成本、易实现);需要多视角纠错、复杂分工选多智能体协作;长时程、高复杂度研究选分层调度(强规划、易监管);需要对接外部工具、环境交互选工具增强执行(能力边界由工具决定)。
但实际应用中,其实多采用混合架构,结合多种模式优势。
有了研究框架,再横向对比当前常见的17个自主研究智能体,揭示领域已从早期通用脆弱原型,演进为L4级受限域专用系统。代码智能体成熟度最高,科学智能体开始产出可验证新发现。
而迈向L5完全自主的核心瓶颈在于持续知识积累、可靠自我评估、架构规模化。
最后,论文中还提出了,六大开放问题:
50,高成本加剧科研不平等。
陈德里自述,高强度工作导致的精力不足,让他搁置了很多事。
博客、写作,现在是Agent让他有机会把这些重新捡了起来。
除了这篇研究综述,还更新了个人主页。
有了Agent,这些任务完成起来效率超高。
人类的角色,从“执行者”变成了“发起者”。
参考链接:
[1]https://x.com/victor207755822/status/2059269472297623843?s=20
本文来自微信公众号“量子位”,作者:梦晨,36氪经授权发布。
发布时间:2026-05-27 09:00