就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,与北京大学合作完成,作者中同样有梁文锋署名。
论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
简单总结一波这项新研究要解决的问题:目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。
针对这一现状,DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现。
目前,模块「Engram」相关的实现已经上传到了 GitHub。
项目地址:https://github.com/deepseek-ai/Engram
这让网友们感慨:「DeepSeek is back!」
此外,结合元旦期间公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我们可以明确的是 DeepSeek v4 的模样愈发清晰,就等上新了!
MoE 模型通过条件计算实现了模型容量的扩展,但现有的 Transformer 架构缺乏原生的知识查找原语,只能通过计算过程低效地模拟检索行为。
为了解决这一问题,DeepSeek 提出了条件记忆(conditional memory)这一与条件计算互补的稀疏化维度,并通过 Engram 模块加以实现。Engram 在经典
发布时间:2026-01-13 09:20