你的「龙虾」还好用吗?人大林衍凯教授:OpenClaw就像早期Linux,真正的竞争才刚开始

过去数月,AI 领域很难绕开一个名字 ——OpenClaw。这个项目在极短时间内获得了爆发式关注:数十万星标、惊人的 Token 消耗,以及几乎所有大厂的快速跟进。从表面上看,它像是又一个现象级 AI 产品;但如果进一步审视,一个更值得思考的问题随之浮现 ——OpenClaw 的出现,究竟意味着什么?它真的是一次技术突破,还是某种更深层变化的信号?

近日,端侧智能北京市重点实验室关于智能体的创新研讨会在清华科技园召开,8 位产学嘉宾发言,从底层技术问题、技术演变趋势、端云协同范式、技术背后的安全问题、Agent 管理实践等维度切入,研讨的主题围绕 OpenClaw 背后的技术逻辑以及未来的发展趋势展开。

中国人民大学副教授林衍凯在研讨会上做了《从 OpenClaw 看智能体技术发展趋势》的报告,回答了三个更本质的问题:第一,当前的智能体技术究竟走到了哪一步?第二,它真正的核心瓶颈在哪里?第三,未来一到三年,这条技术路径会如何演进?

他从系统架构、交互执行方式,到基座模型与多智能体协同,进行分层拆解,还原技术的真实状态,提出一个有些 “反直觉” 的判断 ——OpenClaw 并不是底层算法的突破,而是通过工程化整合让大模型能力跨过 “可用阈值”,使智能体真正走向可用。它更像一个智能体操作系统的早期雏形,在统一模型、工具与交互方式上重新定义了 AI 的使用范式。其爆发本质上是模型能力与工程体系在同一时间点发生共振的结果。

与此同时,林衍凯给出对核心瓶颈的系统性理解,指出 OpenClaw 也集中暴露了当前智能体在可靠性、长任务执行、Token 成本和记忆体系和自主进化上的核心瓶颈。

最后,他指出,智能体未来发展的关键不再只是模型变强,而是通过端云协同、协议标准化和多智能体系统,实现从单点能力向系统能力的跃迁。

以下是演讲全文:

今天我想借 OpenClaw 这个最近非常火的智能体项目和大家探讨一个问题,目前的智能体技术到底走到了哪一步,它的核心瓶颈是什么?下一步我们会往哪些方面走?我尽量少讲一些产品,多讲一些技术,里面有我的一些思考。

首先看一些数据,OpenClaw 当时轰动之后,24 小时拿到了九千 star,两个月超过了 27 万星标,甚至超越了 Linux,成为了整个历史上星标最多的项目。这是我截的 OpenClaw 在 OpenRouter 上的 Token 消耗量,一周就消耗了 4.73T,整个消耗量比后面的所有加起来都多。与此同时,国内几乎所有的大厂都在跟进,今天微信也接入了龙虾,非常非常火。很多城市也针对 OpenClaw 出了一些政策。

我今天不是想讨论它火不火,我想讨论三个偏技术的问题:它为什么在今天这个时间点引爆?从技术上到底有没有创新?从它的角度看目前有哪些需要去解决的问题?

OpenClaw 爆火的本质原因是 “可用性革命”

整个 OpenClaw 从项目启动以来,到突破 20 万星标到创始人加入 OpenAI,其实也就三四个月,从它火爆到现在其实也就是一个月的时间。为什么它会这么火呢?从我个人角度,是因为它极大地降低了用户的使用门槛。它不同于传统的聊天机器人,而是一个能够自主执行任务的 AI 智能体 。虽然大模型出现后就有了 AutoGPT、XAgent 等类似事情,但 OpenClaw 真正让普通人也能轻松上手使用了。

在这里我给大家一个暴论:从 AI、大模型技术创新的角度来看,OpenClaw 其实并没有太多的创新,是已有技术的使用,它不训练模型,不改进推理算法,也不做底层的工具学习。它所做的,是 IM 通讯平台的接入、本地部署架构、分层记忆以及 Gateway 的标准化 。这些都是非常优秀的软件工程设计,但在核心算法本质上并没有突破 。

我们可以看到,系统里真正干活的、为我们提供良好体验的,其实是它接入的 Claude Opus 4.6 或 GPT-5.4 等基座模型 。我认为,OpenClaw 对于大模型的意义,有点类似于浏览器之于互联网 —— 它本身不创造内容,但它重新定义了用户的交互方式,让非技术背景的人也能顺畅地将大模型应用到工作中 。

正因为 OpenClaw 在底层算法上没有做过多改变,它反而成为了一个非常好的技术分析样本 。它的成功可以向我们展示哪些技术已经相对成熟(例如基座模型的工具调用和执行能力),同时也能暴露出当前还缺失哪些技术(例如系统的可靠性、记忆模型的迁移能力、以及端云协同目前的不成熟)。

我今天用 OpenClaw 为切入点,尝试系统性地审视整个智能体技术上,不同层的技术现状是什么,核心瓶颈是什么,以及我认为大家可以做的一些研究方向。

来看一组统计数据,这是大模型出现以来,智能体在 50% 成功率的情况下,它可以自主完成任务的长度,大模型出来之后,倍增时间约 7 个月,过去一两年的倍增时间加速到约 4 个月。右边的图是我刚才提到的 Claude Opus4.6、GPT-5.4,基本上都是在代码能力、工具调用能力方面相比于前一版本有了质的飞跃。

OpenClaw 是智能体操作系统的雏形

OpenClaw 的总体技术架构非常简单清晰,从底层的系统控制到 Agent 循环系统,再到上层的标准化封装和信息流管理,最后接入暴露给用户的各种 channels。为什么大家用起来这么好呢?本身就是它的六大关键技术特征 —— 这个不是我提的,是我在另外一场报告里面听人讲的,总结的非常好:社交接入、本地部署、设备接入、模型生态、技能生态,这些特征使得它对底层模型、各类用户、各种设备以及复杂任务都具备了极强的兼容性 。

从软件工程层面来看,OpenClaw 有三个非常核心的设计 。

第一个是它的 Gateway 系统,采取三层的架构,采用分层的形式,使得无论是外部接入的不同设备还是 IM 软件,都可以通过 Gateway 统一路由和调度给智能体层。这样一来,智能体本身就不需要关心用户是通过什么平台在交流,或者外部硬件是什么,只需专注底层 API 和顶层接口的对接即可 。

第二个是它的分层记忆机制

OpenClaw 做了一个非常非常简单的记忆机制,它的记忆机制虽然简单,但非常实用。以往我们在 AutoGPT 或是其他智能体模拟系统中也见过类似设计 。 

最底层(L1)是当前会话的上下文,属于短期记忆,当上下文窗口快满时会自动压缩消息,其生命周期随会话结束而终止 。 

第二层(L2)类似于每日笔记或流水账,它会自动读取近两天的日志,并有一个 30 天的衰减周期 。 

在此之上是长期记忆层(L3),它会对底层信息进行总结,长久地提炼出人物信息、偏好和经验教训 。

最顶层(L4)则是基于文件的语义智能召回,其核心目的是实现个性化 。通过这套搭建在大模型之上的智能体记忆架构,系统能够做到 “越用越懂你” 、“越用效果越好”

第三块是兼容了 Claude 的 skill 生态。大家可以看到是三层加载,第一层通过名字、描述帮助模型快速了解 Skill 的功能,实现 skill 的快速检索;第二层是它详细的工作流程,这使得模型在面对不同任务时能知道该如何处理,比如我这个 PPT,或者其它事情的大概工作流程是什么。这种 skill 的方法能力能够让智能体去做特别专精尖的任务。最后一层是它的一些相关资源。

以上这三点是我拆解 OpenClaw 后,认为最有工程价值的部分。

讲完了整个 OpenClaw 的整体架构之后,我从我个人角度提出一个自己的猜想或者判断,其实我觉得 OpenClaw 不应该看作是一款软件或者说所谓的一款应用,而是未来智能体操作系统的早期原型。

我看到一篇非常有趣的文章,里面提到了正如 Linux 让所有的硬件和软件在同样一套标准下去运行,OpenClaw 它其实现在尝试在做的就是让所有的 AI 模型、消息平台和所有的工具都在同样一套标准下运行,这正是 OS 该干的事

它对上提供统一的抽象,去屏蔽不同大模型的 API 的差异;向下去管理资源,比如管理 skill 插件,管理消息通道;而在中间通过网关去提供调度。它的四层架构 ——LLM 抽象层、Agent 循环、运行时、Gateway—— 与操作系统的经典分层高度对应。

我最近也经常跟人讨论,整个 OpenClaw 的代码其实缺乏一个非常强的团队去维护,随着大家大量用 AI 生成代码去修改维护它,它现在的状态像早期的 Linux 非常粗糙的状态一样,目前整个代码非常臃肿,甚至已经是一个人不可 review 的状态,整个架构也没有成熟。我觉得这也是它的创始人加入 OpenAI 的意图之一,他希望借助大公司的力量完成目前的原型和产品级 OS 的重构。

目前 OpenClaw 只解决了一个人在一台机器上运行一个 Agent 的问题,未来所有端侧设备变成了 Agent,未来的需求是几百个 Agent 在一个分布式的环境里去协同工作,这些需要线程管理,需要服务发现,需要行为审计,这些目前 OpenClaw 还没有。这也是我们为什么看到目前的整个生态竞争同时在框架层、协议层,以及未来会出现的编排层展开。可以说,将来的模型工具和应用必须适配这样的框架和协议才能够有效使用。

我去年也发了一些智能体模型,我觉得反响不如我的预期。原因是什么呢?我自己都不愿意用它,第一它的能力还没有达到像 Claude 这样,我自己写 Code 的时候,我用 Claude。第二个,我当时发布的时候,即使是一些比较 Geek 的使用者,能够自己给我们的模型配 API,还是会倾向于用 ollama 去推理,可能觉得 ollama 已经是一个非常好的框架。

但是智能体有自己的一套运行框架,我们的模型得在这套我们设计的框架下才能效果比较 ok 的跑起来。这就意味着以后有了 OpenClaw,用户就会直接用 OpenClaw 去使用你的模型。试一下不好,他就会觉得你发布的智能体模型不好。这件事情非常重要,如果之后有了这样一个东西之后,也许是 OpenClaw,也许是基于 OpenClaw 的新的东西,或者另外的东西,我们的模型就必须去主动适配它,就像我们移动时代的 APP,必须适配 IOS 以及安卓一样,这个也是我们要做的事情。

生态竞争焦点:框架、协议与 Agent-Native 软件

因此,从 OS 层面,它的生态竞争其实已经开始了。从 OS 层面,目前有三条路线。

  • 第一条路线是目前的 OpenClaw 路线,主打开源、本地优先、IM 驱动,优势是生态开放、隐私可控,劣势是安全问题突出;
  • 第二条是 Anthropic 的 Claude Code 路线,通过 CLI 命令行界面运行,使用内置的多智能体协作,深度集成其提出的 MCP 协议,更偏向开发者和技术用户,在 Coding 上的优势非常明显;
  • 第三条是 OpenAI 的路线,直接将能力集成在 ChatGPT 中触达消费者。

同时在协议层面,大家也在争,包括 MCP、A2A、IOA 协议,协议决定了谁主导这个生态的话语权,未来大家就得跟着它干。对于我们做研究的人员来说,跟我刚才说的一样,未来模型的竞争维度必须从跑分高转向用起来好。这使得工具使用、结构化输出、长上下文、推理能力正从原来的加分项变成硬性要求,如果做不到这些的话,就没有办法在 OpenClaw 这样的框架下跑起来,大家就不会用你。

第二个是从交互执行层层面,智能体怎么操作软件这件事情大家正在探索。现在有两条路线:

第一步是通过调用结构化 API、MCP 协议直接调用外部工具,这种方式可靠、执行快,而且相对来说更容易验证一点。但它的一个问题是面向我们现在朝着人去优化的软件生态,其实有一个特别大的问题,大量现有的软件并没有提供完善的 API 接口,覆盖率不足也是一个问题。

另外一个路线是 GUI Agent,像人一样去看屏幕点鼠标,豆包 AI 手机或 Claude Computer Use,都在尝试走这一条路,它的优势本身是它的通用性强,任何 APP 都可以操作,但缺点是需要不断截屏识别,速度慢、耗资源,且点击准确率不如直接调 API 稳定。

从我的角度来讲,大模型智能体的出现,特别是 OpenClaw 这种现象级产品的出现,正在倒逼传统软件向 “AI 原生(Agent-Native)” 的设计方向演进 。当发现 API 调用效果更好时,用户会慢慢要求软件提供 API 接口 。如果 OpenClaw、Claude Code 等主流框架无法调用你的软件,大家慢慢就不使用你这个软件了。

近期也有研究尝试通过大模型自动将现有的 GUI 软件转化为 Agent-Native 的 CLI 接口 ,比如港大的 CLI-Anything 项目。它用一个 7 阶段自动化流水线,分析软件代码库,自动生成 CLI 接口,已经在 Blender、LibreOffice 等 9 款软件上验证了,一千多项测试全部通过。

因此,我的判断是短期内两条路线还是会共存,GUI 处理长尾的应用,而 Skill 调用来处理核心的工作流,长期来看随着更多的软件慢慢被转化为 Agent-Native 的接口,工具调用的覆盖率会持续地上升。

核心瓶颈与关键技术路径:长程性、端云协同、任务拆解与记忆系统

接下来从基模层面看存在的问题,Agent 要真正落地使用,必须可靠地完成多步的长任务,这是用户愿意用你的前提。我们看一下这两张图:

图上的纵坐标是模型可以大概完成多长时间的任务。在只要求 50% 成功率的情况下,像 Claude Opus 4.6 甚至能执行长达 10 小时的任务 ;但如果我们将可靠性要求提高到 80%、90% 甚至 95%(这是日常商用的底线),即使是 Opus 4.6 可能完成的任务时长也会从 10 个小时降到 1 个小时。正如 QA 的时候提到,我们普通人没有那么多钱,或者算力有限的情况下,能接触到的模型可能就能做几分钟的任务,这件事情使得我们目前智能体模型纯端侧的这条路,短时间内没有那么容易走得通。

因此,从短期的角度,端云结合是一个可能的路径,依赖于云侧的话,总算力是有限的,整个花销也非常贵。纯端侧的话,目前短期来看模型效果很难达到需求。可行的是什么呢?由云端完成任务拆解,将长任务分解为几分钟的子任务,交给端侧执行,再由云端验证。

这件事情从目前来看也是相对可行的,我们的 AgentCPM 系列工作也证明,在特定垂直场景下,端侧小模型完全能达到与云端大模型相近的效果。同时像刘知远老师的密度法则(Densing Law)指出,我们的模型能力,每 3.5 个月翻倍,今天需要云端处理的子任务,明年可能端侧就能完成,整个端云结合可能随着时间演变端侧能够完成的事情越来越多。

同时,我们专业智能体的能力也已经达到了人类专家的水平,正如刚才说的一样,Agent 在垂域的突破非常多,代码领域非常成熟。比如代码领域的 Claude Code,再 GIthub 上的 commit 占比达到了 4%,预计年底将贡献 GitHub 上 20% 的 commits ;国内日行迹公司的 FARS 项目也已经证明大模型能批量产出研究论文。

这些案例可以提炼出一个共性公式:专业智能体 = 通用大模型 + 领域知识库 + MCP 工具 + 专业 Skill 工作流 + 领域后训练 。我们走通这条路之后,就可以在端侧去搭建一个面向于某个具体子任务的端侧智能体,做到既省算力又高效。

纯云端路线的另一个致命痛点是 Token 消耗极大。目前真正用上 OpenClaw 的人并不算多,一周就消耗了 4.7T Token 。假设未来有两千万人使用,现有的基础设施绝对承受不住。大家可以看一下右边的成本对比表,让 OpenClaw 用 Opus 4.6 跑每天需要约 10 美元,即便使用 GPT5.4 也要 5.5 美元。

最近有一句话说的非常好,可能在未来,竞争变成了谁掌握了更多的高质量 Token,这些掌握高质量 Token 的人,必将在产业竞争或者技术竞争上占领优势。

现在这么贵的 Token 很难做到,假设我们未来用户增长十倍、百倍,目前的算力是支撑不了的,因此,必须将手机、PC 等大量端侧闲置算力利用起来实施端云结合。云端做任务的规划和分解,端侧小模型就负责子任务的执行,一旦长任务被分解为十步以内的子任务,端侧模型就可以胜任。长程任务不一定靠单模型变得更强来解决,也可以靠把这种长任务拆短,让对的模型做对的事情来进一步解决。

我们要做长任务,另外一个关键点是记忆系统。目前大家在记忆系统上有非常多不同的设计。有基于人工设计的、基于学习的,也有明文记忆、隐状态记忆和参数化记忆,各有各的优劣势。人工设计的记忆架构安全可预测,但策略固定无法适应新场景;基于学习的记忆也许能发现更优策略,但它需要梯度信号和模型权重都是可访问的。

对于记忆的形式来说,隐状态记忆和参数化记忆,隐状态记忆会跟特定的模型绑定,换个基座模型就用不了了,而参数化记忆的话,它没有办法应用于别的模型。如果我们从我们记忆架构,未来能用的角度上来说,对于端侧模型我们可以用隐状态,用参数记忆,而面向未来端云记忆的大规模复用,我个人判断 “可迁移的明文记忆 + 可优化 / 学习机制” 将会是一个非常有潜力的主导方向。

从工具型 Agent 到自主进化系统

最后谈谈自主进化。当前的智能体自主性还不够。我们一旦把任务用到了这种各样的场景之后,真实场景的动态性、多变性往往要求我们模型能够像人一样主动的适应探索,以及不断的学习。目前的智能体依赖于已有的模式,没有办法在部署后主动进化。我们整个学术界的发展,大模型的训练已经慢慢的从最早期的基于模仿学习范式,转向进入人类反馈的探索学习,正在迈向具备主动环境交互能力的自主学习范式。

那么,结合端云协同和目前的 OpenClaw 框架,第二个事情是我们有没有可能做端侧的自主进化?

目前的自主进化有非常多的分类体系,比如说基于经验学习和参数学习的自主进化,比如说有明确监督信号、弱监督信号和无监督信号。最近发现一个尝试:在 OpenClaw 上面做端侧自主进化的玩法,这个项目叫做 OpenClaw-RL,来自 Princeton 团队。它做了一件什么事情呢?它发现每次智能体和环境交互的时候,都会产生下一个状态信号,比如用户的回复,比如工具的输出,以及终端的状态变化,其实这些信号既包含评价信息,也包含着应该怎么做的指导信息。

OpenClaw RL 这个工作就设计了一个全异步的四组件架构,在前端服务用户的同时,后台同步做轨迹收集、质量评估并更新权重。在一个个性化评测场景中,它发现仅仅需要 8 步训练就能把个性化得分从 0.17 提升到 0.76,当然,这个项目目前还比较初步,局限也很明显:需要 8 块 GPU、只支持自托管开源模型、无法改进闭源模型、没有跨用户的联邦学习。目前的端侧自主演化机制依然非常初级,局限性明显:比如存在参数学习的训崩风险;闭源模型由于无法获取权重而无法学习;同时每个部署端依然是个数据孤岛。真正的 AI 自主进化距离实际应用还有相当长的路要走。

如果之后有了端云结合,可以想象,会有更多的设备开始养虾。我们再看多智能体(Multi-Agent)系统,过去若干年整个多智能体系统的发展速度令人印象深刻。从 2020 年 OpenAI Five 的个位数 Agent 到 2026 年 Moltbook 上 150 万 Agent 的自主社交,规模跨越了六个数量级。

清华团队提出的 MacNet 证明了增加 Agent 数量确实能持续提升任务解决质量(首次发现了智能体协作的 Scaling Law)。头部的科技企业、研究机构也尝试着去把多智能体加进去,比如说 Opus 4.6 就引入了所谓的 Agent team 的功能,一个主 Claude 实例可以生成多个独立的子 Agent 并行工作,通过共享任务列表和消息系统协调。这是工业界在多 Agent 架构上开始探索的、也算蛮成熟的一个实现。

但是从多智能体的角度,我也想泼一点冷水,Moltbook 确实制造了轰动 ——150 万 AI Agent 在上万个论坛中讨论技术、探讨存在主义,甚至创建了 "龙虾教"。但从技术角度去看的话,这更多是大量 Agent 的单向广播,而非真正的互动交流。

真正的群体智能涌现,需要的是像曼哈顿工程,像载人航天一样,一群 Agent 去完成一个单 Agent 没有办法完成的一个级别更高的任务,这种所谓的群体智能的涌现,需要 Agent 之间产生有意义的分工、冲突、和适应性协调 —— 而不只是各说各话。距离真正的 "智能体互联网" 还有很长的路。

最后我个人研判,第一阶段是目前工具化 Agent 阶段,Agent 作为一个增强版的工具,我们人去定目标,去审查结果,这个阶段关键的突破点是推理能力的增强以及推理能力慢慢的落到端侧。当我们 10B 规模的端侧模型具备 R1 或者 V3.2 推理能力的时候,我们端云的协同架构就可以大规模部署。MCP、A2A 这样的协议会在这个阶段慢慢收敛,这个加速延续的话,到 2027 年 Agent 可能就能处理数天甚至周级别的长任务。

第二阶段是所谓的半自主智能体或协作 Agent 阶段,其实多个 Agent 就开始能够做自主的分工、协调、纠错,这种协作 Scaling 可以被可控地预测和利用,Agent 在线学习可以成为标配的功能,就像 iPhone 出来之后,三年以后才有 APP 商店应用的生态爆发,所谓 Agent 的操作系统也需要这样一个生态建设期。

第三个阶段是 Agent 具备真正的自主学习能力,整个世界有万亿级别的 Agent,这些 Agent 能够在部署之后持续进化。从我个人的看法来说,我们要走到这个阶段,面临非常多根本性未解的问题,自主性边界在哪里?如何实现模型无关的记忆架构?群体涌现的条件是什么?Agent 代替知识工作者后,谁为 Token 付费?这既有挑战,也是我们研究者的机会。

最后,我总结一下。OpenClaw 不是技术突破,但它是技术临界点的标志。从端云协同、记忆架构、端侧演化到群体智能涌现,都暴露出目前智能体的一些问题,每个层次都有我们非常深刻的研究空间。目前,我们正处在智能体技术从 “演示可行” 到 “大规模部署” 的转折期,这个时间节点非常重要。

本文来自微信公众号“机器之心”,36氪经授权发布。

发布时间:2026-03-30 17:20