寻找下一个“英伟达”:AI 产业链革命进入新阶段,谁能登上Context内存战争的王座?

【导语】

最近在做 Multi-Agent(多智能体)投研系统时,我遇到了一个极其抓狂的问题: 

一份真正复杂的研报,经常要跑几个小时,甚至整整一晚上。 当 Tokens 消耗到数万级别之后,响应时间会急剧上升,复杂任务甚至可能卡到一小时以上。 

尤其是在以下场景同时发生时,延迟会变得格外明显: 

  • 多 Agent 协同
  • 工具链调用
  • 长上下文推理
  • 结构化对抗分析

一开始,我以为问题只是单纯的“算力不够”,准备咬牙升级LLM的套餐,但是我的套餐的请求符合并没有打满,也没有链接的报错。问题可能AI面对超长Context导致的系统级别的阻塞,而且可能已经不是 GPU 本身了。 

而是:“内存”,更准确地说,是大模型卡在了“数据搬运(Data Movement)”。 

而最近资本市场和 AI 基础设施的变化,其实已经开始提前反映这一点。 

一、AI 产业正在进入一个诡异的新阶段

过去两年,整个市场都在疯狂购买 GPU。 但现在,一线工程师发现了一个非常微妙的变化:在很多 AI 系统里,GPU 的算力还没跑满,内存已经先崩了,于是Context管理成为了Harness Engineering的重要组成。

这背后其实意味着,AI 的核心瓶颈,正在发生历史性转移: 从Compute-centric(以计算为中心)转向Memory-centric(以内存与数据移动为中心)

如果说 2023-2025 的主线是“GPU 算力革命”; 那么 2026-2028 很可能进入“内存架构革命(Memory Architecture Revolution)”。 

而这场革命最重要的关键词,就是:CXL(Compute Express Link)。 

二、为什么 AI 突然开始“极度缺内存”?

2026年5月,整个华尔街都被"存储芯片"的疯狂暴涨彻底打蒙了。 

美光科技(MU):过去12个月股价狂飙 700%,市值一举突破8400亿美元;西部数据(WDC):一年内暴涨 900%;闪迪(SNDK):更是上演了上市以来狂涨 3300% 的终极造富神话,单日暴涨16%直接突破1560美元。       

无数踏空的投资者在深夜懊悔:曾经错过了英伟达,为什么错过了这波利润更丰厚的内存狂欢?

答案很简单,思维依然停留在 "AI = 算力 = GPU" 的旧共识里。 

这波存储股的彻底爆发,只是向市场揭开了一个残酷真相的冰山一角: AI 系统真正面临的致命瓶颈,早已经不是算力了,而是 Memory Wall(内存墙)。

很多人看到 NVIDIA 新一代 GPU 时,会有一种错觉: “192GB 的 HBM 已经非常庞大了,为什么还不够用?” 

问题在于:AI 推理阶段真正像黑洞一样吞噬内存的,往往并不是模型本体,而是 KV Cache。

这是现在二级市场最容易忽略的核心问题。 

什么是 KV Cache?简单说: 大模型在推理时,每生成一个 Token,都会保存对应的 Key 和 Value,用于后续的 Attention 计算。 

上下文越长,缓存越大。 

而现在 AI 行业正在同时发生的趋势: 长上下文、Multi-Agent、持续会话、实时推理、多用户并发……这些全部都会导致 KV Cache爆炸式增长。 

一个 70B 级别的模型,如果跑百万 Token 上下文,再叠加高并发,KV Cache 很容易瞬间膨胀到数百 GB,甚至 TB 级别。 

问题来了:你不可能把所有数据都塞进 HBM 里。 

三、HBM 的致命短板:太快,也太贵

最近内存股涨价的核心动力是HBM(高带宽内存), 

HBM确实很强,但它更像是城市里的“顶级学区房”。 

它有几个致命问题: 

  • 成本极高
  • 功耗极高
  • 容量扩展极其困难
  • 严重受制于 CoWoS 这种先进封装的产能

顶级学区房非常好,但不可能让所有数据都住进去,否则 AI 公司的推理成本会直接失控。 

于是,AI 系统被迫进入“分层内存时代”。 

未来的 AI 内存架构,大概率会变成这样: 

  • Tier 0(HBM):超快、超贵(存放最核心即时计算数据)
  • Tier 1(DDR5 / CXL Memory):大容量、高性价比
  • Tier 2(NVMe / SSD):更大、更慢

这意味着,未来 AI 系统的核心大考,不再是单纯的“你有没有买到 GPU”,而是:“哪些数据必须放在最快内存里?”以及“如何降低数据在各层之间的搬运成本?”

四、NVIDIA:从 FLOPS 转向 Data Movement

过去几年,整个 AI 行业都在拼 FLOPS(每秒浮点运算次数)、拼 GPU 数量。 

但现在,如果你仔细观察英伟达最近的动作,你会发现他们开始越来越频繁地强调: 

  • Context Memory
  • Shared Memory
  • Rack-scale Architecture(机架级架构)

在 GTC 2026 上,NVIDIA 已经明确提出了POD-wide context memory(即整个 Rack/POD 级别的共享上下文内存)。 

英伟达的Grace-Blackwell (GB200)架构,本质上就是把 CPU 和 GPU 通过超高带宽的 NVLink-C2C 焊在一起。它的 Grace CPU 天生就是为了管理 HBM 和共享内存池设计的。它不卖单颗 CPU,它卖的是一整套“CPU+GPU+内存织物”的全栈解决方案。 

这意味着,AI 基础设施已经开始从GPU-centric转向Context-centric。大家终于意识到:算力再强,数据搬不动也是白搭。

五、CXL 到底改变了什么?解决“搁浅内存”与“NVLink垄断”

过去几十年的服务器架构是高度绑定的: CPU 绑定自己的 DRAM,GPU 绑定自己的 HBM。各自为战,彼此之间很难灵活借用。 

这会导致一个极度浪费的现象: GPU-A 的 HBM 已经被 KV Cache 撑爆了,而旁边 GPU-B 的内存却在闲置。 因为无法动态共享,这些闲置的内存就变成了极其昂贵的“Stranded Memory(搁浅内存)”。 

上面提到的英伟达NVLink-C2C不是已经解决了吗?为什么还需要 CXL?”

这是一个极佳的问题。答案是:它们根本不在一个生态位。 

NVLink 是英伟达为自己修的“私家高铁”。极快,但你必须买它的全套车票,把所有的计算都死死锁定在英伟达的封闭黑盒里。它解决的是大模型暴力计算的“算力上限”。 

而 CXL(Compute Express Link),是 AI 时代的“通用货运网络”。它是由 Intel、AMD、Google、Meta 等全行业“复仇者联盟”共同推行的开放标准。 它的核心使命不是帮某一家公司跑赢算力,而是解决全行业共同的噩梦——内存墙。它解决的是 AI 商业化落地的“成本下限”。 

CXL 带来了一个极其关键的概念:Memory Pooling(内存池化)。 

过去,每台服务器像一栋独立别墅,自带水塔; 未来,通过 CXL,整个数据中心将变成一个共享水网系统。 不管你是谁家的 CPU,谁家的 GPU,大家都可以动态共享一个巨大的外部内存池。谁渴了,水(内存资源)就流向谁。 

最终,云端算力的内存可以灵活支取,按需按量分配。 

六、有了 DeepSeek v4 这种算法压缩,还需要 CXL 吗?

看到这里,很多懂点技术的朋友可能会抛出一个尖锐的问题: 

“前阵子 DeepSeek v4 出来,不是通过首创的 MLA(多头潜在注意力机制)架构, 硬生生把 KV Cache 的显存占用砍掉了 80% 到 90% 吗?” 

既然算法能在物理级别把内存压缩得这么小, 为什么还需要搞极其复杂的 CXL 硬件池化? 

这是一个极好的问题。 但真相是:DeepSeek 的算法压缩,与 CXL 的硬件池化,绝非互斥关系。而是拯救 AI“内存墙”的两条完美交叉线。 

第一,DeepSeek 本质上是“用极致的计算和带宽,换取内存空间”。MLA 架构把庞大的 KV 矩阵压缩成极小的潜在向量(Latent Vector)。 但在计算时,模型必须极高频地“解压缩”还原。 这依然要求极其恐怖的显存带宽(Bandwidth)和互联速度。 算法压缩到了极限,是对数据传输宽带的极度压榨。 

第二,物理极限与系统级死锁。即使 DeepSeek 砍掉了 90% 的 KV Cache。 当你在跑数百万 Token 的逆天长文本、且应对数万并发时, 剩下的那 10% 依然会撑爆单机 HBM 的天花板。 更致命的是: GPU-A 压缩得再小,它省下来的闲置内存,依然无法给旁边的 GPU-B 使用。 

所以,未来的终局形态是:算法(向内压缩)负责“节流”;CXL(向外池化)负责“开源”。

这两者的“双剑合璧”,才是彻底跨越“Context Memory 战争”的终极解法。 

七、反直觉:CPU 正在迎来“结构性复兴”

看到这里,你可能会产生一个错觉:AI 时代,传统的 CPU 是不是彻底沦为打杂的了? 

恰恰相反。在 CXL 硬件池化和 DeepSeek  v4高效算法的双重催化下,CPU 的重要性正在被史诗级重估。

如果说 GPU 是 AI 时代的“暴力肌肉”。 那么在这个庞大的 CXL 共享内存网络里,CPU 正在重新找回它“神经中枢”的王座。

原因很简单: 

第一,谁来当海量内存池的“超级交警”?在 CXL 时代,所有的 GPU 和海量的外部内存连成了一片网。 GPU A 的闲置内存怎么动态借给 GPU B?热数据什么时候切入 HBM? 这种极其复杂的Memory Orchestration(内存编排调度)和多租户一致性管理,GPU 根本做不来。它必须依靠拥有极高 I/O 带宽和复杂调度逻辑的“重型 CPU”来执行。 

第二,算法压缩倒逼 KV Cache 下放。既然 DeepSeek 把 KV Cache 的体积压缩了,我们为什么非要把它们全挤在昂贵的 GPU HBM 里? 我们完全可以把这些海量的上下文记忆,存放在由 CPU 掌控的庞大 DDR5/CXL 内存池中。GPU 只管埋头计算,CPU 负责极速调取和维护这些上下文。

AI 的下半场,对 CPU 的要求并没有降低,而是发生了极其深刻的“职能升级”。那些拥有强大调度架构的高级 CPU,价值将面临重构。 

目前的趋势是:ARM 正在全面压倒 x86。 

功耗是死穴:AI 机柜的功耗已经逼近物理极限(单柜 120kW+)。x86 的复杂指令集在能效比上天生吃亏,而 ARM 架构在处理高频、并行的 I/O 调度时,能省下巨额电费。 

定制化是绝杀:云巨头(AWS, Google, Microsoft)现在都在自研 CPU。基于 ARM 的 IP 授权,他们可以像搭积木一样,定制出最适合 CXL 链路和 DeepSeek 算法的私有 CPU(如 Graviton 系列)。 

未来的王者,不再是那个“算力最强”的,而是那个“最懂得调度内存”的。 

八、 寻找真正的 Alpha:产业链里的“四大关键节点”

当 AI 基础设施的重心发生偏移, 真正的利润池, 将开始向“Memory Movement(数据搬运)”疯狂迁移。 

不要再死死盯着 GPU 和 CUDA。 在即将到来的 CXL 内存池化时代, 这四个环节,才是未来 3 年最硬核的“卖水人”: 

1. Retimer(高速信号修复芯片):最先爆发的物理刚需

随着 PCIe 5.0/6.0 和 CXL 传输速度的翻倍, 高速信号在物理主板上极易衰减失真。 Retimer 就像是内存长途运输线上的“加油站与放大器”。 在未来的机架级(Rack-scale)AI 服务器中, 它是根本绕不开的物理标配。 

核心标的:Astera Labs (ALAB)、Credo Technology (CRDO)

2. CXL Switch(价值咽喉):AI 时代的“内存交换机”

未来,GPU 不再固定“焊死”在某块内存上。 而是通过 CXL Switch 动态连接整个内存织物(Memory Fabric)。 谁能实现超低延迟、高一致性的内存交换, 谁就扼住了 AI 数据网络的咽喉。 这是整个硬件链条中溢价最高、壁垒最深的环节。 

核心标的:博通 (AVGO)、Marvell (MRVL)。 

3. 被重估的 CPU 层:统筹全局的“总指挥部”

在传统认知里,CPU 在 AI 时代边缘化了。 错!在 CXL 时代,CPU 成了统御庞大内存池的“总调度交警”。 现在的 Alpha,不再看 CPU 的单核算力, 而是看它的I/O 通道数、低功耗,以及内存调度效率。 

蓝图统治者:Arm Holdings (ARM)。云巨头抛弃 x86 自研芯片(如 AWS Graviton),统统要给 ARM 交底座授权费。

定制化推手:世芯电子 (3661.TW)、Marvell、博通。他们是帮巨头们代工设计 AI 芯片的幕后刀客。

x86 的最后尊严:AMD (AMD)。凭借极高的 I/O 通道数和激进的 CXL 拥抱策略,EPYC 依然是公有云上的硬通货。

反直觉的赢家:Intel (INTC)。哪怕输掉核心,凭借独家的 EMIB 先进封装(IFS 代工),依然是云巨头造芯绕不开的代工厂。

4. Memory Controller & Orchestration:真正的软件护城河

把海量内存连起来只是第一步。 真正困难的,是“如何高效调度这些共享内存”。 这涉及到极度复杂的 OS 支持、工作负载迁移和多租户隔离。 这不仅是硬件的事,更是软件生态的事。 

核心标的:Rambus (RMBS)。 

生态玩家:能够研发出类似于 Meta TMO(透明内存卸载)底层软件栈的科技巨头,谁能做好 Memory Orchestration,谁就能建立起媲美英伟达 CUDA 级别的“内存软件护城河”。 

当 AI 基础设施的重心发生偏移, 真正的利润池, 将开始向“Memory Movement(数据搬运)”疯狂迁移。 

不要再死死盯着 GPU 和 CUDA。 在即将到来的 CXL 内存池化时代, 这四个环节,才是未来 3 年最硬核的“卖水人”: 

1. Retimer(高速信号修复芯片):最先爆发的物理刚需

随着 PCIe 5.0/6.0 和 CXL 传输速度的翻倍, 高速信号在物理主板上极易衰减失真。 Retimer 就像是内存长途运输线上的“加油站与放大器”。 在未来的机架级(Rack-scale)AI 服务器中, 它是根本绕不开的物理标配。 

核心标的:

2. CXL Switch(价值咽喉):AI 时代的“内存交换机”

未来,GPU 不再固定“焊死”在某块内存上。 而是通过 CXL Switch 动态连接整个内存织物(Memory Fabric)。 谁能实现超低延迟、高一致性的内存交换, 谁就扼住了 AI 数据网络的咽喉。 这是整个硬件链条中溢价最高、壁垒最深的环节。 我们可以关注博通 (AVGO)、Marvell (MRVL)。 

3. 被重估的 CPU 层:统御全局的“总指挥部”

在传统认知里,CPU 在 AI 时代边缘化了。 错!在 CXL 时代,CPU 成了统御庞大内存池的“总调度交警”。 现在的 Alpha,不再看 CPU 的单核算力, 而是看它的I/O 通道数、低功耗,以及内存调度效率。 

蓝图统治者:Arm Holdings (ARM)。云巨头抛弃 x86 自研芯片(如 AWS Graviton),统统要给 ARM 交底座授权费。

定制化推手:世芯电子 、Marvell、博通。他们是帮巨头们代工设计 AI 芯片的幕后刀客。

x86 的最后尊严:AMD (AMD)。凭借极高的 I/O 通道数和激进的 CXL 拥抱策略,EPYC 依然是公有云上的硬通货。

反直觉的赢家:Intel (INTC)。哪怕输掉核心,凭借独家的 EMIB 先进封装(IFS 代工),依然是云巨头造芯绕不开的代工厂。

4. Memory Controller & Orchestration:真正的软件护城河

把海量内存连起来只是第一步。 真正困难的,是“如何高效调度这些共享内存”。 这涉及到极度复杂的 OS 支持、工作负载迁移和多租户隔离。 这不仅是硬件的事,更是软件生态的事。 关注Rambus (RMBS)生态玩家:能够研发出类似于 Meta TMO(透明内存卸载)底层软件栈的科技巨头,谁能做好 Memory Orchestration,谁就能建立起媲美英伟达 CUDA 级别的“内存软件护城河”。 

结语

30年前,互联网解决的是:“计算机之间的数据共享”; 

20年前,云计算解决的是:“计算资源的弹性分配”; 

5年前,大模型解决的是:“大尺度参数的注意力分配”; 

1年前,智算中心解决的是:“万卡集群的算力洪流分配”; 

而今天,我们正在攻克 AI 皇冠上的最后一颗钉子:“AI 芯片之间的全域内存共享”。 

当你还在为今天某个 AI Agent 运行缓慢而抱怨算力不足时, 当你还在盯着英伟达的 K 线图猜测天花板在哪里时; 

另一场更底层、利润更丰厚的系统级架构变革,可能已经开始了。 

AI 的下一阶段,也许不再只是“算力战争”,而是“Context Memory 战争”。 

你认为谁会成为 CXL 内存池化时代的下一个“英伟达”?欢迎在评论区留下你的硬核观点,我们一起探讨 AI 基础设施的下一个十年。 

本文内容不构成任何投资建议。

本文来自微信公众号“PM熊叔”,作者:熊叔,36氪经授权发布。

发布时间:2026-05-11 22:16