统治AI十年的Transformer,要被亲爹亲手砸碎?

80分钟的拳击式辩论!Transformer联合发明人亲自下场为自己的作品辩护,对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。统治AI黄金十年的架构,地基是不是已经松了?

Transformer凭什么统治AI这么久?

长上下文、记忆、推理这些短板,新架构真能突破吗?

所谓「后Transformer」,到底是更强的记忆机制、更高效的序列建模,还是从训练到系统都得换一套?

5月5日,旧金山,Pathway搞了场拳击擂台式的辩论赛。

这不是比喻,是真擂台。

一边是Transformer的共同发明人Łukasz Kaiser,另一边是主张「后Transformer时代」的新架构派。

注意一个细节:注意力机制的两位联合发明人,「Transformer八子」之一LlionJones,坐在了Kaiser的对立面。。

话题就一个:下一代AI架构到底长什么样。

现场坐满研究者、创业者和投资人。输赢不靠投票,靠「clapometer」——拍手计分器,谁掌声响谁赢。

这是一场刀刀见红、指名道姓的硬碰硬。

当裁判宣布比赛开始,统治了全球AI架构近十年的神话,第一次被它的缔造者亲自拉上了被告席进行自卫辩护。

这场思想界的重量级对决,从Transformer的五大死穴开始。

苦Transformer久矣

五大死穴

Łukasz Kaiser的身份让这场辩论的分量直接拉满。

他是Transformer的联合发明人。

2017年那篇改变整个AI格局的论文「Attention Is All You Need」,他是作者之一。之后他参与了ChatGPT、GPT系列和o1的实际工程开发。

他是当事人。他今天坐在这里,是为自己的作品做辩护。

对面的三位挑战者,来头同样不小。

Llion Jones,Transformer的另一位联合发明人,Sakana AI联合创始人。

Adrian Kosowski,Pathway首席科学官,BDH架构的发明人。

Matthias Lechner,Liquid AI首席技术官,MIT液态神经网络的共同发明人。

这本身就是技术史上极其罕见的画面。创造同一个东西的人,对它的未来产生了根本性分歧。

Kaiser开场用了一个类比。

他说Transformer的注意力机制,就像图书管理员的卡片索引系统

你走进图书馆,说出你要找的内容(query),管理员翻开卡片目录(key),找到对应的书架位置,把书取出来交给你(value)。

简洁。高效。全局检索。

但挑战者们要问的是:如果这个图书馆有一亿本书呢?每次查询都要翻遍所有卡片,这个系统还能撑住吗?

这就是O(n²),悬在Transformer头上的达摩克利斯之剑。

三位挑战者没有笼统地说「Transformer不行了」。他们拆出了五个具体的、当前Transformer架构无法在设计层面解决的开放难题。

每一个都直指要害。

挑战者们最尖锐的隐喻,直指Transformer的记忆与持续学习缺陷:「土拨鼠之日」

在电影《土拨鼠之日》中,主角每天醒来,世界都会重置,昨天的记忆荡然无存。

目前,Transformer也是如此。

每一次推理(Forward Pass),它的权重(Weights)都是完全冻结的。

哪怕你今天跟它聊了十个小时,它学到了绝妙的新知识,在下一次会话启动时,它依然是一个失忆的白痴。

现在工业界为了解决这个问题,拼命往里塞RAG(检索增强生成)、长上下文(KV Cache)。

但这根本不是架构级的解法,而是用昂贵的算力在伤口上贴创可贴。

五大死穴,每一个单拎出来都不是小事。合在一起,构成了一张完整的起诉书。

但起诉书不等于判决书。

Kaiser的底牌

你行你上,拿曲线说话

面对五大攻击,Kaiser没有一一辩驳。

他没说O(n²)不是问题,没说灾难性遗忘不存在,没说Transformer完美无缺。

他抛出了一句话,成了整场辩论的核心:

除非Post-Transformer证明更好的scaling曲线,否则Transformer仍然是主流。

这句话的杀伤力在于,它把举证责任推回了挑战者。

什么是scaling曲线?

简单说,就是「投入更多算力和数据,AI能力提升多少」。

Transformer统治近十年,最核心的原因不是它没缺陷,而是它的scaling曲线至今没被任何架构超越。

这是OpenAI敢砸几十亿美元训练GPT、Anthropic持续扩大Claude规模的底气。

Kaiser的逻辑极其清晰:

你说Transformer有五个问题?我同意。

但有问题的东西和应该被替换的东西之间,有一道鸿沟。跨过它,你需要的不是五篇论文,是一条更好的scaling曲线。

然后,他展开了更具体的辩护,而且带着工程现场的铁锈味。

并行性是硬道理。

上周,在最新的Nvidia硬件上,Kaiser重新实现了Transformer和几个老式RNN,并做了对比。

非常小的GRU,比一个大得多的Transformer还要慢50倍。

RNN确实优美,但它的顺序执行特性在当前硬件上就是一场灾难。

如果真存在一种更好的架构,你需要用50倍的时间去证明它——而大多数实验室没有这个耐心。

十年的工程积累。

不只是GPU优化,编译器、训练框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化工具——整个AI工程栈都围绕Transformer搭建。

换架构意味着这一切都要重来。

隐式的「持续学习」,早已发生。

Kaiser指出,Transformer在大规模预训练后,前向传播中表现出的上下文学习(In-Context Learning),在数学上其实完美模拟了反向传播中的梯度下降。

换句话说,你们说它不会学,它其实在以另一种方式偷偷地学。

他的辩护不是「Transformer永远是最优解」,而是「Transformer现在是最优解,除非你证明不是」。

然后他甩出一句让对面哑口无言的话:

也许找到下一个架构的,恰恰会是Transformer本身——而不是你们。

全场笑声。

但大家都听出来了:这是认真的。

AI:无人可挡的光明未来

Kaiser的结束陈词,没有说「Transformer永远是最优解」。他说的是:「目前,Transformer仍然赢。」

「目前」这个词,是他留给挑战者的唯一缝隙。

更微妙的是,他亲手交出了一件本属于自己阵营的武器。

后Transformer阵营此前最大的短板,是「缺乏大算力的工程和硬件验证」——新架构跑得慢、没人愿意为它改芯片。但Kaiser自己承认,这道壁垒正在被瓦解:

现在,AI Agent已经学会了写极高难度的CUDA和Triton核函数。

即便一个新架构最初运行慢50倍,你只需要把代码丢给Agent,它就能在短时间内帮你优化出几乎能榨干GPU算力的专用内核。

硬件彩票的壁垒,正在被智能体开发生态自己砸碎。

这意味着,一旦有人在百万Token、千万Token的极长上下文任务上,用Post-Transformer架构跑出一条更漂亮的困惑度曲线,哪怕只有一点点优势,也会在scaling的放大镜下,形成对旧帝国的致命一击。

Kaiser甚至主动提议:应该建立一个统一的测试标准——用困惑度衡量所有架构在同等条件下的学习能力。

「我们应该在这件事上达成共识,然后各自去证明自己的架构更好。」

这句话的潜台词是:挑战赛正式开始。

而Jones的最后一句话更直接:

今天我没有得到任何理由让我怀疑自己的信念:有更好的东西存在。当那个突破到来,我们所有人都会进入后Transformer时代,Łukasz也不例外——因为他届时别无选择。

这场「拳击赛」看似戏谑,但它的胜负直接决定了Claude、ChatGPT等硅谷双雄的底层地基是否需要被全部推倒重建。

如果后Transformer(Post-Transformer)阵营拥有更优越的Scaling Law(缩放定律)曲线,整个人类通往AGI的物理路线图都将被改写。

参考资料:

https://x.com/probnstat/status/2057522470760914957?s=20

https://www.youtube.com/watch?v=hCjoMLuCuLQ

本文来自微信公众号“新智元”,作者:ASI启示录,编辑:大卫,36氪经授权发布。

发布时间:2026-05-27 10:14