自从理查德·萨顿(Richard Sutton)以一篇《经验的时代》(The Age of Experience)批评大型语言模型(LLM)缺乏真正的持续学习和元学习能力以来,整个LLM界最近频繁开始了对这一天花板集体突围。
在过去,业界不乏制造“自进化模型”的尝试,这些尝试在逻辑上与持续学习的目标一致,即模型应能逐步自我进化变得更强。但直到最近,实现这一目标的几条路径才开始变得逐步更加明朗。
之所以能够明朗,是因为主流模型持续学习的能力,本质上与模型的“记忆”深度和可塑性相关。只有能够稳定地更新或增加新记忆,模型才有可能持续学到新东西。
因此更改、添加记忆有多少种方法,持续学习也就有多少种大的路径。
放眼当下的大语言模型界,能够做到改变模型记忆的方法,大致可以归纳为三条路径。
第一条路径,是改变“上下文”(Context),即修改模型的“工作记忆”。
它对应的学习方法被称为“上下文学习”(In-Context Learning, ICL)。通过在提示词中给予模型新的信息、示例或指示,模型便能在当前对话中“学会”解决特定问题。
这条路径的最新进展,是近期被安德烈·卡帕西(Andrej Karpathy)强力推动的“系统提示学习”(System Prompt Learning)概念。
其核心思想是,模型通过对自身解决问题的行为进行“语言层面的总结与归纳”,反思成功与失败,然后不断更新自己的系统提示词,从而提升未来解决同类问题的能力。
这种方法通过影响模型最底层的行为指令,在一定程度上解决了ICL常被批评的浮于表面的问题,让学习成果得以沉淀。
第二条路径,是引入“外部记忆库”,即RAG。
这是给模型配备一个外置的数据库,让它在需要时去进行对比和检索。而持续学习则体现在模型自身有能力去更改、积累和维护这个外部记忆库。
这方面的最新探索,当属谷歌DeepMind的“Reasoningbank”研究。它不再是给AI智能体一个零碎的“事实记忆库”,而是打造一个“高级大脑记忆库”。这个库里存储的不是“10+10=20”这样的事实,而是模型从成功和失败的经验中总结出来的“方法论”和“避坑指南”。
这两条路径,无论是反思自身prompt还是维护外部方法论,都是对传统持续学习模式的一种“元学习”转向。
在近期的产品化探索中,Anthropic推出的Claude Skill功能,就是结合了这两层(尤其是第一层)方法,让Agent通过总结经验来“学习”新技能的尝试。
然而,第三条路径,即从“参数层面”上做持续学习,这个最根本、最核心的方法,却一直都没有什么大的进展。
因为目前能够直接改变模型参数的方法,要么像强化学习(RL)一样,训练开销巨大、流程复杂,不可能在模型部署后“经常用”来学习新知识;要么就像LoRA这种轻量化监督微调(SFT)一样,极不稳定。
这使得参数更新这条最根本的路径,长期处于止步不前的尴尬境地。
但最新一篇来自Meta AI的论文《通过稀疏内存微调实现持续学习》(Continual Learning via Sparse Memory Finetuning),可能给这条沉寂已久的第三路径,带来了根本性的改变。
SFT(监督微调)始终面临一个根本性矛盾:它是赋予模型专项能力的最直接手段,却也因难以克服的“灾难性遗忘”和稳定性问题,成为模型能力进阶的瓶颈。
灾难性遗忘具体是指在更新参数时,模型在过程中会忘记原有的知识。
以LoRA(注:Low-Rank Adaptation,低秩适应,是一种用于高效微调大型预训练模型)为例,它因成本低、只需调整少量参数而被视为最有前景的持续学习方法。但在实际应用中,可能仅仅几千步的微调就能让模型学会新技能时,严重损害其原有的通用能力。
会产生这个现象的根本原因在于,模型的参数是所有任务共享的。当你为了学习新知识而去调整一组参数时,很可能会破坏掉存储旧知识的同一组参数,导致遗忘和能力下降。
Meta的这篇新论文,便是为解决这一顽疾。
他们提出了一种叫稀疏内存微调(Sparse Memory Finetuning)的方法,它的核心思想是:如果我们能精确地只更新那些与“新知识”相关,而与“旧知识”无关的参数,不就能避免干扰了吗?
为了实现这一目标,Meta AI做了一套完整的技术闭环。
Meta在这里用了一个比较新的特殊模型架构,即内存层模型(Memory Layer Models)。研究者们将标准Transformer模型中的一些前馈网络(FFN)层,替换成了一个内存层。
内存层和标准的FFN层的差别,和MOE与稠密模型的差别差不多。当一个问题进来,标准FFN层中的所有参数都需要被调动起来参与计算。
而内存层则完全不同,它有100万个“微型专家”(即内存槽位/slots),每个专家都存储着极小粒度的知识。当一个问题进来时,模型会生成一个查询(query),去所有参数中找出最相关的Top-k个专家(比如k=32)。只有这32个专家被激活并提供信息。这种设计本身就非常像一种极端化的MoE,但它拥有数以百万计的微型专家,而非传统MoE的8个或16个大型专家。
研究者们将一个22层的标准Transformer模型中第 12 层的那个 FFN 层拿掉,然后换成内存层。
这时,整个模型数据的流动依然是线性的,token会依次通过模型的每一层,但到了这一个内存层,计算方式从“稠密”变为了“稀疏”。
之所以要做这种改造,是因为记忆层有这么多内存插槽,可以提供远比LoRA还细的“精细控制力”,这一百万个可以被独立寻址和修改的“知识抽屉”(内存插槽),都可以直接用于修改和新增知识。
不论过去的稠密模型还是MOE,全都做不到这一点。
有了可以被精细控制的架构,接下来的问题是:当一个新知识进来时,我们到底应该更新哪几个“抽屉”?
研究者发现,即使使用只需更新少量参数的内存层方法,如果简单地将所有相关参数都更新一遍,仍然会引发灾难性遗忘。
所以关键问题是:如何精准筛选出了那些“既重要又安全”的参数?Meta引入了信息检索领域的经典算法:TF-IDF来处理这个问题。
这个算法中的两个值分别是:
TF (词频):它是统计在当前这个“新知识”的训练批次中,一百万个专家(内存槽位)里,有哪些被访问得最频繁?一个专家被访问的次数越多,意味着它与这个新知识的关联性越强。
IDF (逆文档频率): 它统计在某个固定的、代表通用知识的“背景语料库”(如预训练数据)中,有哪些专家是最不常用的?
因此,一个内存槽位的TF-IDF得分高,就意味着它对于这个新知识至关重要(高TF),同时它又几乎不负责通用的日常知识(高IDF)。
通过这套算法,研究人员可以在内存层找到最适合被更新的参数。
有了精准可控的参数和找到最适合参数的方法,更新过程便可以像靶向药一样精准、克制。在反向传播更新参数时,模型会冻结几乎所有的参数,只允许梯度流向那些TF-IDF得分最高的Top-t个内存槽位,以更改其数据。
通过这种方式,模型用100万个槽位中的区区500个,就完成了新知识的“写入”。相较于内存层百万级别的总容量,以及传统SFT动辄数千万的更新量,这个数字可谓是沧海一粟。
效果,就是SFT的“阿喀琉斯之踵”被基本治愈了。
这套“架构改造 + 精准定位 + 稀疏更新”的三步法,效果立竿见影。在论文最关键的对比实验中,研究者让模型学习一套新事实(TriviaQA),然后去测试它在原有任务(Natural Questions)上的表现,看看它“忘掉”了多少。
结果用这种稀疏内存微调的新方法,原有任务的分数仅仅下降了11%,而LoRA则会带来71%的暴跌,至于全量微调,则整整暴跌了89%。
这种新方法在学习能力上与LoRA和全量微调相当,甚至更优,但在遗忘这个核心痛点上,表现出了压倒性的稳定性优势。它几乎完美地治愈了SFT的“阿喀琉斯之踵”。
此外,这种方法也展示了巨大的学习潜力。根据论文的定性分析,存储1000个新事实大约只需要占用500个内存插槽。这意味着一般有100万个内存插槽的内存层,有充足的空间去持续不断地学习海量的新知识。
在训练成本上,它每一步需要更新的参数数量也远少于LoRA,降低了优化器的内存开销。
这个数据有力地证明,这种新方法在学习新知识的同时,表现出了极少的遗忘。它几乎完美地解决了SFT不稳定、易劣化的核心卡点,让“安全地更新模型参数”从一个高风险的奢望,变成了一个稳定、可行的工程现实。
在第一部分,我们讨论过当下上下文学习和RAG的元学习转向:他们都是为了让模型学会“如何学习”或“总结方法论”。
这是因为持续学习的真正实现,需要模型能够自发地从观察中去学习,而非只是接受人工的灌输。这样它才知道什么时候该去学,学什么。
但这两种方法都存在一种根本的尴尬,模型就像一个每次考试都必须去翻阅外部教科书(RAG)或复习自己笔记(System Prompt)的学生。你很难觉得这个学生真的把知识内化了。
很多相关研究也对此有所怀疑,2025年9月发布的一篇备受关注的论文《上下文学习是在学习吗?》(IS IN-CONTEXT LEARNING LEARNING?)就通过探针实验发现,上下文学习确实是一种学习机制,但它倾向于过度关注所观察到的示例分布中的统计特征,而不是去学习任务的根本规律。这导致上下文学习的泛化能力非常有限。
至于RAG,其本质上也是一种上下文学习。只不过这种上下文被存储在外部,需要在使用时通过搜索,找到并转化成内部的上下文。就是从书里背下来。
这种浮于表面、死记硬背的特性,注定了非参数化的学习路径(上下文和RAG)只能是权宜之计。
从根本上,我们还是希望那些“方法论”和“新知识”能真正影响到模型的参数,让它在内里找到规律,成为它本能的一部分。
因此,第三条路径(参数更新)才可能是更根本的解决方案。
过去,这条路之所以走不通,不是因为我们不想,而是因为SFT太不可控。灾难性遗忘就像是守在这条路上的一只猛虎。
而Meta AI的这篇论文,其最大的意义,就是提供了一种安全、稳定、可控的SFT方案。它通过内存层架构和TF-IDF稀疏更新的组合拳,成功地绕开了灾难性遗忘。
这或许意味着,监督微调(SFT)的春天即将来临。
如果这条路径被成功打通,模型将不再是一个“毕业即巅峰”的静态工具,而是能像萨顿所期望的那样,成为一个在经验流中不断成长的智能体。
这个SFT不再尴尬、参数可以被安全更新的未来,才是“自进化模型”真正的起点。
本文来自微信公众号“腾讯科技”,作者:博阳,编辑:郑可君,36氪经授权发布。
发布时间:2025-10-27 14:01