AI终于有了「永久记忆」!今天,超级记忆系统ASMR重磅登场,在业界公认最难AI记忆考试中,刷爆SOTA拿下99%成绩。全网直呼太疯狂。
AI记忆难题,已彻底被解决?
今天,一个Supermemory团队爆火出圈,向全世界扔出了一颗核弹——
超级记忆系统「ASMR」问世,把AI记忆界最难考试LongMemEval,刷到了99%准确率。
全球数十亿Agent都需要记忆,而如今,AI「健忘症」几乎被攻克了。
是的,你没有听错!
ASMR以近乎无敌的姿态刷爆SOTA,一时间登上了今天X的热榜。
它抛弃了传统的「向量数据库」,抛弃了嵌入(embedding)模式,完全在内存中运行。
这一次,ASMR全程采用「多Agent并行推理」的流水线,具体分工如下:
3个「观察者Agent」并行读取原始数据,提取个人信息、偏好、时间线等六大维度信息;
当用户提问时,再派出3个「搜索Agent」进行主动推理检索。
如今,全网被「太疯狂了」刷屏了。
值得一提的是,ASMR将于4月初开源全部代码,AI记忆的「大航海时代」正式开启!
首先,还是要mark下这篇博客第一句话——
AI Agent的记忆问题现在可能已经完全解决了。
几个月前,Supermemory祭出首份研究报告,便在LongMemEval-s测试中拿下了85%的成绩。
这一分数,早就领先于当时所有公开的记忆系统。
而今天,超级记忆系统「ASMR」(智能体搜索与记忆检索)的出世,再一次刷新了纪录。
它的技术实现,非常简单。
不需要向量数据库、嵌入(embeddings),直接完全在内存中运行。
这意味着,它可以被内嵌到其他系统中,甚至是机器人等硬件中。
那么,ASMR具体是如何被打造出来的?
要知道,LongMemEval是目前公开可见的、最严苛的长期记忆基准测试之一。
很多基准测试只考量短上下文中的简单检索,但LongMemEval不同,它旨在模拟真实生产环境中的各种混乱情况:
在超11.5万智元(Token)的对话历史、相互矛盾的信息、跨越多个会话的零散事件,还需进行时间推理的复杂问题。
大多数记忆系统表现不佳,问题往往出在「检索」上,而不是推理上。
即便召回率很高,如果检索过程中伴随着大量噪音,LLM同样很难利用这些信息。
首要难题在于,如何只将正确的信息放入上下文窗口;更困难的是——如何判断检索到的事实已经过时,并已经被更新的版本所取代。
不仅如此,标准的向量搜索在多数情况下都很好用。
但在处理信息密度高、跨越多会话的时序数据细节时,它就力不从心了。语义相似度匹配无法可靠地区分某个事实是「旧信息」还是「新修正」。
为了应对LongMemEval的复杂性,必须从头开始重新构思信息摄取与检索管道,用主动的Agent推理来取代向量数学计算。
由此,团队跳出了传统RAG框架,构建了一个「多Agent协同编排」的管道。
就像ASMR一样,这项技术简单直白,且让人极度舒适。
首先,部署一个由3个并行读取器——观察者Agent,组成的智能体编排器。
它们背后由Gemini 2.0 Flash加持,不用针对用户对话进行分块和嵌入就能执行任务。
这些Agent会并发地阅读原始会话,比如,Agent 1负责会话 1、3、5;Agent 2负责 2、4、6。
观察者Agent目标是围绕「六个维度」进行定向的知识提取:个人信息、偏好、事件、时序数据、信息更新、助手信息。
然后,这些结构化的发现会被「原生存储」,并映射回它们的源会话中。
当接收到问题时,ASMR不会去查询向量数据库。
通过部署的3个并行的「搜索Agent」,这些AI会主动阅读并推理已存储的发现,每个Agent都有专属的侧重点:
Agent 1:搜索直接事实和明确陈述;
Agent 2:寻找相关的上下文、社交线索和暗示;
Agent 3:重建时间线和关系图谱。
编排器会汇总所有三个「搜索Agent」的发现,并提取原文会话的逐字片段来进行细节验证。
这种机制使得系统能够基于真实的认知理解来进行智能检索,而不仅仅是依赖关键词或数学上的相似度。
一旦上下文整合完成,单一的提示词无法应对LongMemEval中种类繁多的问题。
有些问题需要推断细节,而有些则要求给出极其具体的答案。
接下来,Supermemory尝试了两种截然不同的AI Agent回答工作流。
将检索到的上下文路由给并行运行的8个高度专业化的提示词变体。
比如,精准计数器、时间专家、Context Deep Dive等,每个变体都会独立评估上下文并生成答案。
如果这8条截然不同的推理路径中,有任何一条成功得出了正确答案(Ground Truth),该问题就会被标记为正确。
这种并行的多重判断方法,让ASMR达到了惊人的98.60%整体准确率,完美覆盖了盲区。
为了测试一个旨在产出单一、权威答案,而依赖多次独立尝试的系统,团队又将ASMR扩展为了一个包含12个变体的决策森林。
在这里,12个高度专业化的AI Agent(由GPT-4o-mini驱动)独立回答提示词。
并且, 还引入了一个「聚合大模型」作为最终的裁判。
聚合器通过多数投票、领域信任度和冲突解决机制来综合这12个答案。
这种单一的共识模型,同样取得了高达97.2%的惊人准确率。
需要说明的是,ASMR目前还没有用在Supermemory的核心生产环境中。
这次实验不仅刷新了数据,更验证了几个关键观点:
Agent检索优于向量搜索: 主动搜索消除了语义相似度陷阱,解决了时序变化导致的信息失效问题。
并行处理是效率核心: 将负载分配给多个专用Agent,显著提升了提取的速度与颗粒度。
专业化分工胜过通用模型: 专用专家(如细节提取器)的表现远超单一的全能提示词。
但如果你以为ASMR只是一个刷榜实验,那就太小看这个团队了。
ASMR背后,是一个叫Supermemory的完整记忆引擎——一套面向所有AI应用的记忆与上下文基础设施。
Your AI forgets everything between conversations. Supermemory fixes that.
你的AI在对话之间什么都记不住,Supermemory来修。
GitHub地址:https://github.com/supermemoryai/supermemory
前面说的ASMR,解决的是「怎么从海量对话里精准找到正确信息」。
但Supermemory要解决的问题更大:让AI真正拥有记忆,而不只是检索。
区别在于,RAG不认人,今天给张三返回的结果和明天给李四的一模一样;而Supermemory会从对话中主动提取事实,追踪变化,处理矛盾,甚至自动遗忘。
举个例子,你上个月跟AI说「我住在北京」,这个月又说「我刚搬到上海」。RAG会把两条信息都丢给大模型,让它自己猜。Supermemory知道后者覆盖了前者,只返回「上海」。
更狠的是「自动遗忘」机制。你说「我明天有个考试」,等日期过了,这条记忆自动失效。临时事实不会变成永久噪音。
Supermemory默认把RAG和记忆合并在同一次查询里跑,知识库检索和个性化上下文一次返回。
记忆之外,Supermemory把用户画像也一并接管了。
传统方案里,你想让AI「认识」一个用户,需要自己搭建用户画像系统,手动维护标签、偏好、历史行为。Supermemory把这件事全自动化了。
它会把用户信息拆成两层:
静态事实(「资深工程师」「用Vim」「偏好暗色模式」)
动态上下文(「正在做认证模块迁移」「在debug限流问题」)。
一次API调用,延迟约50毫秒,你的Agent就知道对面坐的是谁。
把这个画像注入system prompt,Agent瞬间从「陌生人模式」切换到「老朋友模式」。
记忆光靠对话还不够,Supermemory还接通了一整套外部数据源。
Google Drive、Gmail、Notion、OneDrive、GitHub,全部通过实时Webhook自动同步。
文档上传后自动处理,PDF解析、图片OCR、视频转录、代码AST级分块。传上去就能搜,零配置。
对开发者来说,集成成本被压到了最低。
npm装一个包,几行代码就能给自己的Agent加上完整的记忆能力。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK、Mastra,主流AI开发框架全部有现成的封装。
内置Claude Code、OpenCode、OpenClaw插件
甚至不写代码也行。
Supermemory提供了MCP服务器,一行命令安装,Claude Desktop、Cursor、Windsurf、VS Code直接用。
从实验到产品,Supermemory团队做的事情其实可以用一句话概括:把AI的「工作记忆」从一个附加功能,变成一层基础设施。
过去几年,大模型的竞争集中在参数规模、推理速度、上下文窗口长度。
但一个128K上下文窗口再大,对话结束就清空,下次见面还是陌生人。
记忆才是让AI从「工具」变成「搭档」的最后一块拼图。
当每一个Agent都能记住你是谁、你在做什么、你上次说到哪里,人机交互的体验会出现一次静悄悄的质变。
不是AI变聪明了,而是它终于不再失忆了。
参考资料:
https://x.com/DhravyaShah/status/2035517012647272689?s=20
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
发布时间:2026-03-23 21:39