「AI自进化」新进展:自主构建、优化Agent Skills

当前的通用 Agent 并不足以应对专业领域的复杂需求,现有解决方案多为手工编写领域特定 Skills,但这种方式不仅依赖人工,且难以扩展。

针对这一局限,来自 Sentient 与弗吉尼亚理工的研究团队提出了 EvoSkill 框架,一个能通过失败分析自动发现并优化 Agent Skills 的自我进化系统。

实验数据显示,EvoSkill 在 OfficeQA 金融文档问答任务上使准确率从 60.6% 提升至 67.9%,在 SealQA 对抗性搜索问答上实现了 12.1 个百分点的提升。该研究表明,Skills 层面的自动进化,有望成为提升 Coding Agent 专业能力的新方向。

论文链接:https://arxiv.org/abs/2603.02766v1

EvoSkill如何“自我进化”?

在当前的 AI 开发中,Agent Skills 多依赖人工编写,成本高昂且难以扩展。现有进化方法虽能自动优化,但仅针对 Prompt 或代码等底层产物,与特定任务强耦合,难以复用。

EvoSkill 将优化层次提升至 Skills 本身,自动生成可解释、可迁移的结构化 Skills。这种设计使得进化出的能力不再受限于单一任务,具备了类似人类技能的通用性。

EvoSkill 的核心是三个 Agent 相互协作的进化循环:

  • 执行 Agent(A)在现有 Skills 库支持下处理任务,生成执行轨迹和答案。
  • 提议 Agent(P)接收执行 Agent 在训练集上产生的失败案例,结合历史反馈记录,诊断能力缺口,并提出新 Skills 的创建建议或对现有 Skills 的修改方案。
  • Skills 构建 Agent(S)根据提议将抽象描述转化为具体的 Skills 文件夹,包括元数据、指令文件和必要的脚本代码。

进化过程遵循如下流程:

  • 首先在训练集上运行当前最优程序,收集得分低于阈值的失败样本;
  • 提议器 P 对这些案例进行分析,结合已记录的反馈历史提出修改建议;
  • Skills 构建器 S 根据建议生成候选程序,然后在验证集上评估候选程序的性能;
  • 如果候选程序得分超过当前前沿集合中的最差成员,则将其纳入前沿,否则丢弃。

前沿集合维护固定数量的高性能程序,确保进化方向持续向更优收敛。

图 | EvoSkill 循环概述。

这一机制的关键在于底层模型保持冻结,仅 Skills 库随迭代更新,从而将能力提升归因于 Skills 优化;反馈历史记录每次提案及其结果,帮助提议器避免重复无效方案,同时通过迭代使上下文信息逐步丰富;Skills 以文件夹形式存储,包含元数据和指令,便于跨任务和跨模型复用。

图 | EvoSkill——基于文本反馈的迭代 Skills 归纳。

实验验证

为验证 EvoSkill 的实际效能,研究团队在金融文档推理和搜索增强问答两个截然不同的领域进行了严格评估。

在 OfficeQA 基准测试中,EvoSkill 处理了包含复杂数据的美国财政部公报。实验结果显示,通过自动进化,Agent 的准确率从 60.6% 提升至 67.9%。在此过程中,EvoSkill 自动发现了数据提取验证 Skills 和量化分析方法 Skills,有效解决了 Agent 在复杂数据处理中的错误。

图 | EvoSkill 在 OfficeQA 基准测试中,不同训练分割和容差水平下的表现。

在包含噪声和冲突信息的 SealQA 任务上,EvoSkill 的表现尤为突出。基线模型准确率仅为 26.6%,进化后提升至 38.7%,增幅达 12.1%。其核心在于发现了搜索持久化协议 Skills,要求 Agent 在得出结论前进行多源验证和术语扩展,有效避免了因检索结果不足而过早停止搜索的问题。

实验进一步测试了 Skills 的迁移性。研究团队将在 SealQA 上进化出的搜索持久性协议直接应用于 BrowseComp 任务进行零样本迁移测试,未经任何修改,模型的准确率从 43.5% 提升至 48.8%,获得了 5.3 个百分点的增益。这一结果表明,EvoSkill 生成的 Skills 具备跨任务通用性,其效用不局限于原始训练场景。

启示与展望

EvoSkill 的研究为编码 Agent 的能力提升提供了新的思路。

理论层面看,将优化对象从提示词或代码片段提升至 Skills 层面,有助于解耦能力与具体任务及模型的绑定。Skills 以结构化形式存储,包含明确的触发条件和执行流程,使其在不同场景下具备可迁移性。这一方向或将为 Agent 能力构建提供新的技术路径。

实践层面看,自动化的 Skills 发现机制能够减轻手工编写 Skills 的人力负担。Skills 以独立文件夹形式存储,便于在不同 Agent 之间共享和复用,为构建开放 Skills 库奠定了基础,有助于推动 Agent 在协作场景下的能力互通。

未来,研究团队计划在更广泛的领域评估 EvoSkill,以更好地理解进化 Skills 的普适性,并区分哪些 Skills 具有领域通用性与领域特异性。并且,将其扩展到多模态任务,使 Skills 能够协调处理文本、图像、代码等多种输入形式。同时,探索 Skills 在不同模型和 Agent 框架之间的迁移能力,并考虑建立 Skills 共享社区,支持用户发现、组合和贡献 Skills。

本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:王跃然,36氪经授权发布。

发布时间:2026-03-18 17:32