刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了

就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,与北京大学合作完成,作者中同样有梁文锋署名。

论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

简单总结一波这项新研究要解决的问题:目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。

针对这一现状,DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现

目前,模块「Engram」相关的实现已经上传到了 GitHub。

项目地址:https://github.com/deepseek-ai/Engram

这让网友们感慨:「DeepSeek is back!」

此外,结合元旦期间公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我们可以明确的是 DeepSeek v4 的模样愈发清晰,就等上新了!

除了条件计算(MoE),

LLM 还需要一个独立的条件记忆 Engram

MoE 模型通过条件计算实现了模型容量的扩展,但现有的 Transformer 架构缺乏原生的知识查找原语,只能通过计算过程低效地模拟检索行为。

为了解决这一问题,DeepSeek 提出了条件记忆(conditional memory)这一与条件计算互补的稀疏化维度,并通过 Engram 模块加以实现。Engram 在经典

发布时间:2026-01-13 09:20