GTC 巅峰对话 Jeff Dean x Bill Dally：预训练范式已死、延迟瓶颈不在计算、谈透 AI 五年未来-新糖宝胶囊官方网站

Agent 一旦跑起来，很多为人类设计的工具都会变成新的瓶颈。

今天早上，GTC 2026 刚结束了一场重磅对话：双方分别是 NVIDIA 首席科学家Bill Dally和 Google DeepMind、Google Research 首席科学家Jeff Dean。

这个是每年 GTC 的惯例，请一位大神和英伟达的首席科学家聊聊，前年是李飞飞，去年是杨立昆，往往信息密度极高。Bill Dally 代表的是 NVIDIA 这边对 GPU、推理、网络和系统架构的理解；Jeff Dean 则代表 Google 这边对 TPUs、大模型训练、Gemini 和大规模机器学习系统的判断。

和我们经常整理的“一问一答”不一样，这两个大神都准备了各自的问题给对方。所以这大概也是我近期整理的最奇妙的稿件，他们就像两个宗师你一招我一招，交流江湖上最顶尖的武学，颇有一分禅意。

两个人的问题都很具体，回答也很少绕弯：过去一年到底变了什么？推理为什么突然比训练更重要？低延迟瓶颈究竟卡在哪？预训练会不会被重写？AI 能不能自己去设计下一代 AI？AI 又能不能反过来帮人类设计芯片？

下面按这场对话的推进顺序，整理 Jeff Dean 和 Bill Dally 的核心讨论。

Bill Dally：

过去一年，机器学习里最让你兴奋的变化是什么？

明年又会发生什么？

Jeff Dean：我觉得这个领域里的每个人都看到了模型能力在过去一年里的快速进步，也看到了人们开始如何真正把这些模型用起来。所以整体来说，这一切都非常有意思，也非常令人兴奋。

如果让我回看过去一年，我会特别提几件事。

第一，我觉得模型在有可验证奖励的问题上，已经变得强太多了。比如数学和编程。

三四年前，如果我们的模型能做对八年级数学题——像“Fred 有四只兔子，又得到了两只兔子”这种——而且正确率能有 40% 或 50%，那时候大家就已经很兴奋了，会说：“这太棒了。”

但在过去几年，尤其是过去一年，我们在复杂数学问题上的能力提升得非常快。比如 Gemini 参加 IMO，拿到了金牌；在编程竞赛 ICPC 上，我们也拿到了金牌。所以我觉得，这两个领域的能力进步都非常惊人。

另一件可能发生得更近一点、但同样重要的变化是，我们开始看到agent-based workflows在更长时间尺度的任务上真正有效了。

以前你让模型去做一些事情，它确实也会去做。但通常几分钟之后，你还得回来告诉它：“好，这一步做完了，下一步该做什么？”而现在，你可以把一些需要一个小时、甚至几天的任务交给这些模型，它们会自己跑出去做很多事，中间会纠正自己、继续做更多事情。

我觉得这是一个非常令人兴奋的转变，因为它意味着这些模型现在可以在更长时间范围内相对自主地运行。而在以前，虽然你不是时时刻刻交互，但本质上还是得相当近距离地监督它。

这显然是一个很大的变化。

而且说到这里，我觉得接下来会非常重要的一件事是：我们会有越来越多 agent 在后台运行。

于是，一个非常关键的问题就变成了：我们怎样才能做到ultra-low-latency inference（超低延迟推理）？

因为如果这些系统要自主工作，而且工作得更快，那么推理延迟会直接决定它们解决问题的效率。

Jeff Dean：

所以我想反过来问你们 NVIDIA：

你们下一代架构准备怎么把“显著的延迟降低”真正做出来？

我们怎么从今天的几百 token/s，走到几千、甚至几万 token/s？

我们怎么从几百 token/s 走到几千、几万？

下一代低延迟推理架构该怎么做？

Bill Dally：简单说，答案其实有很多层。

如果你看一下推理任务的性能曲线，会发现它本质上是一条延迟（latency）和吞吐量（throughput）的权衡曲线。

在曲线的一端，如果你愿意牺牲延迟，就能换来极高的吞吐量——也就是每花一块钱或每一瓦功耗，每秒能处理更多的 token。

顺着曲线走到另一端，通过减小批处理大小（batch size），系统会更偏向于交互场景，追求单个用户的响应速度。

而当你走到曲线的极限，也就是完全为降低延迟而优化时，会发现一个关键事实：大部分延迟，其实源于通信。

一个典型的 LLM，由许多前馈网络和注意力环节堆叠而成，整个模型可能有 50 甚至上百层。每完成一个计算环节，通常需要一次片上通信将结果传到下一步。每计算完一层，又往往需要一次片外通信。有时甚至在同一层内部的不同环节间，也需要跨芯片通信，这取决于你如何切分任务。

所以我们现在正做的一件要事，就是重新设计架构，把通信延迟真正压缩到接近我们英伟达常说的——光速。

在片上通信方面，我们采用一些区块化设计（tile design），通过静态调度来避免路由、排队和仲裁带来的额外开销。这样一来，信号在芯片导线中的传播速度接近物理极限，大约是每纳秒 2 毫米。

从芯片的一角到另一角，通信时间可以从现在常见的几百纳秒，缩短到大约 30 纳秒。而在片外通信这边，延迟的很大一部分来自物理接口（PHY）。

过去很多年，我们优化物理接口都是为了追求极致带宽，而不是低延迟。为了从一条信号嘈杂的高速链路中准确还原出数据（bit），我们需要做非常复杂的数字信号处理和前向纠错。

但如果你愿意牺牲一点带宽，比如把每对线路的速率从 400Gbps 降到 200Gbps，很多复杂的处理就没必要了。你只需检测线路电压就能识别数据，剩下的主要就是数据串行化的延迟，芯片间的通信耗时仅需几个时钟周期。

因此，我完全看到了一条实现路径：重新打造一种低延迟路由器（router），就像我 20 年前在克雷公司（Cray）做“黑寡妇”项目时那样，当时的路由器引脚间延迟小于 50 纳秒。

我觉得我们完全能再次达到这个水平。

一旦做到，我能想象，即便是相当大的模型，也能为每个用户实现每秒 1 万到 2 万个 token 的处理速度。

Jeff Dean：这真的很让人兴奋。我觉得一个非常重要的点是：不只是小模型，而是让最大规模的模型也能在这种低延迟下运行。

Bill Dally：对，我也觉得这是关键。

Bill Dally：

下个问题。我们距离“让 Gemini 去设计下一代 Gemini”还有多远？

你前面提到了这些智能体系统，提到它们已经开始能处理更长时间尺度的任务。

那你觉得，我们距离这样一个时刻还有多远：拿当前版本的 Gemini，给它一个持续一个月的任务，让它自己去实验新的模型结构、自己想数据筛选策略、自己决定怎么获取更多数据，甚至去写几个合同搞到这些数据，然后训练出下一代版本的自己。

也就是说，我们离这种“让模型去做下一代自己”的事情还有多远？

Jeff Dean：你描述的整套闭环，我觉得现在还没有完全到来。

但我确实觉得，我们已经开始看到它的雏形在出现。

比如现在，你已经可以站在更高维度对模型下令：“请在这个大致方向上，探索一些提升性能的想法。”

接着，它会自动开展 50 项实验，筛掉 40 个没前景的方向，锁定剩下的 10 个苗头，继续做深入的后续验证。

我最近有一个观点，把这类工作看作“元学习”（Meta-learning）的一种新形态。

其实早在多年前，我们就开始尝试类似的事了。比如 2017 年，Google Brain 团队就在做神经网络架构搜索（NAS）。当时你需要用代码来定义一个搜索空间，再跑很多小规模实验，看哪种架构学得最好。后来我们还尝试过自动化优化器、自动化激活函数等等。

在那个阶段，研究员得亲自写代码来划定研究范围。但现在，最令人兴奋的变化是：我们已经开始有能力用自然语言去定义研究空间了。

你现在可以直接下令：

“去让自己变得更强。”

“去探索一些有趣的蒸馏算法。”

“试着利用那些我们目前还没用上的信息。”

然后它就真的会跑出去做这些实验。所以我觉得，这本质上是一种极其强大的、由自然语言驱动的自动化搜索。

Bill Dally：对，本质上这会是一个非常强的研究生产力乘数。因为想出研究点子本身往往没那么难，难的是把实验真的跑出来，理解结果，再决定下一步做什么。

如果 Agent 能承担这部分工作，那就会形成一种非常强的组合：超级研究员加上超级 Agent。

Jeff Dean：

硬件项目今天立项，两年后芯片才进机房。

你们怎么预测两到五年后的 AI？

做硬件一直有个很难的问题。

尤其是在机器学习这种变化非常快的领域里，你今天启动一个新硬件项目，哪怕很顺利，真正进数据中心也常常是两年后。我们当然希望更短，但现实里已经很难了。然后它还得继续活很多年。

所以你实际上是在预测：两到五年后的机器学习和 AI 到底会往哪里走。

这一直都是一件非常难的事。

我很好奇，你们英伟达有没有什么比较好的工具或者方法，来帮助做这种“看水晶球”的事？

Bill Dally：我们尽最大努力。

其中一个办法，是我们自己也尽量去做模型。

比如 LLM 我们做 Nemotron，world model 我们做 Cosmos，机器人基础模型我们做 Groot。

但即便如此，我们还是会被惊到。

因为外面有太多聪明人在做这些事了，他们每天都会冒出新的好点子。

所以最终我们必须做的一件事，是：

future-proof our hardware（使我们的硬件具备未来适应性）

一部分方式，是去做那些对所有模型都好的事情。

比如，如果我们能找到一种更高效的数字表示法，那所有模型都会受益。

如果我们能把片上通信组织得更高效，让数据传输更少，那所有模型都会受益。

真正容易出问题的地方，是模型变化改变了“计算、内存带宽、内存容量、通信”这四样资源之间的比例关系。

因为即便你把这四样都做得很高效，你还是得决定：每一项到底配多少。

而一旦有人发明出一种不同的模型，比如从分组查询注意力机制变到多头潜意识注意力机制，它就可能显著改变这些配比。

结果就是：有些硬件部分闲着，另一些部分却被打满。

这件事没有真正完美的解决办法。

也许未来如果模型真的分化得足够厉害，而不同形态都拥有足够大的量，那最后的答案可能就是做不同 SKU，用不同的精简配置去对冲未来的不确定性。

Jeff Dean：对，这确实很有道理。

Bill Dally：

如果数据快挖完了，我们还怎么继续 scale 模型？

过去这几年，至少在最近这段历史里，我们训练模型会参考 Chinchilla Scaling Laws：也就是说，给定一笔训练算力，你会决定多大的参数量，以及多少 token，通常 token 大概是参数量的 20 倍。

但现在我们好像到了一个阶段：很难继续拿到更多 token。可我们还是希望继续 scale，希望继续投入更多算力去训练。

那你觉得，填补这个缺口的会是什么？如果数据真的越来越难拿了，我们还能怎样用更多算力训练出更好的模型？

Jeff Dean：我先澄清一点。

Chinchilla Scaling Laws 优化的是训练算力。

如果你把 inference 也放进目标函数，它未必还是最优。

另外，我其实不太同意“我们快没数据了”这个前提。

我觉得世界上还有非常多数据没有被真正用于训练这些模型。

Bill Dally：比如哪些数据？

Jeff Dean：我们现在确实训练一些视频数据，但还有更多视频数据没有真正用上。尤其是带音频的视频数据。

另外，真实世界里的机器人数据、自动驾驶数据，我觉得都会非常丰富。

再一个方向当然是合成数据。

如果问题是“怎么生成很有意思、很高质量的数据”，那合成数据当然是一条路。

某种意义上，这就是往系统里继续注入算力，让它自己产生更多可用训练数据。

Bill Dally：但这不会最后变成一种“再咀嚼自己已经看过的东西”吗？

你用旧数据训练模型，再让模型生成合成数据，本质上还是原来的那些东西，只是换了种说法。

Jeff Dean：是的，但它有时候依然会帮助模型。

因为如果生成合成数据的那个模型本身很强，那它确实会带来增益。

Bill Dally：对，相当于把原始东西清洗、提纯了一遍。

Jeff Dean：对。

而且我觉得，还有很多我们今天尚未充分挖掘的技术，其实在早期的图像模型时代非常普及。比如数据增强（Data Augmentation）。从某种意义上说，合成数据本质上也是一种数据增强。

再比如那些防止过拟合（Overfitting）的手段，无论是随机失活（Dropout）还是知识蒸馏（Distillation），都可以归类为一种正则化（Regularization）。

所以我认为，这里面依然大有可为。你完全可以投入更多算力，在数据上多跑几轮训练迭代，让模型持续变强，而且未必会发生过拟合。

Bill Dally：

LLM 会不会有一天像 AlphaGo 一样，在环境中行动、自己变强？

你会不会觉得，未来 LLM 也会走到类似 AlphaGo 的路上？

比如模型彼此交互，或者在某个环境里持续行动，从而让自己的能力不断提高。

Jeff Dean：我确实觉得，今天的预训练机制是有点奇怪的。

你拿一个随机初始化的模型，把它“绑在一块板子上”，然后把互联网数据从它面前一股脑地流过去。它尽量从这些观测里学到能学到的东西。但它其实没有在世界里采取行动。

而我觉得，我们未来真正想要的，是把这种被动观察和“在环境里采取行动”更深地交织起来。这个环境可以是模拟机器人环境，也可以是问题求解环境。模型先行动，然后再继续学习。

而且它最好还能更主动地决定：我下一步到底要看什么数据。而不是像今天这样，训练数据顺序基本是预先排好的。

我觉得，这会非常有意思，因为它可能显著提高学习效率。

也就是：给定同样数量的 token，模型到底能从里面学到多少东西。

而我非常相信，在世界里采取行动这件事，会对提升学习效率非常有帮助。今天我们在后训练阶段确实也做一些这样的事情，但那只是一个很有限的版本。如果未来能把这种交织更深地推进……

Bill Dally：推进到预训练阶段。

Jeff Dean：对，推进到预训练阶段。

我们今天其实人为地把预训练和后训练分开了，但长期看，我不觉得这条边界会一直存在。

Bill Dally：可能前提是模型先聪明到一定程度。

因为一开始只是随机初始化，它大概还做不了这些事情。

Jeff Dean：对。也许你先喂它 100 亿 token，它就已经能开始做点什么了。

Jeff Dean：

训练负载当然重要，但推理负载现在越来越关键。

你怎么看训练和推理硬件的差别？

过去几年，整个圈子都盯着训练规模的扩展。但随着模型深入现实世界，推理的需求开始爆发。传统上我们想做“全能芯片”，但英伟达最近的动作表明，推理硬件已被提升到核心地位。

那你怎么看训练和推理在硬件上的真正差别？

Bill Dally：这是一个非常好的问题。我甚至想说得更绝对一点：推理才是现在的重头戏（Inference is the job now）。

今天数据中心里，很容易出现 90% 的功耗都花在推理上的情况。

Jeff Dean：我刚才说得还太轻了。

Bill Dally：当然，两者有共性。比如我们最初为推理设计的数值格式（如 NVFP4），后来发现对训练也同样有效。但在系统需求上，它们大不相同，特别是内存系统：训练需要保留所有激活值以供反向传播使用；而推理则是随用随扔。

所以训练更吃内存容量。而推理则考验计算、内存带宽、容量和通信之间的资源配比。

更有意思的是，推理内部也存在差异。比如预填充（Prefill）阶段更像训练：你一次性处理大量数据，属于密集计算型，受通信能耗主导。而到了解码（Decode）阶段，为了优化延迟，你通常在做极瘦矩阵运算，这会变成极端的带宽受限和延迟受限。

长期来看，用不同的组件和资源配置去适配这些阶段是很自然的。我猜未来至少会分化出三类硬件：一类针对训练和预填充，一类针对解码，而解码类硬件内部甚至还会进一步细分。

Jeff Dean：同意。预填充确实比解码更像训练；解码太串行化（Sequential）了，一个字一个字地走完整个链路。

Bill Dally：对，太串行了。就一个 token，它必须把整条链路都走一遍。

Jeff Dean：当然，投机性解码（Speculative Decoding）能帮上忙，让单向量运算变成稍微瘦一点的矩阵运算。

Bill Dally：不再是 1 个 token，而是 8 个。

Jeff Dean：而扩散模型也许还能再往前一步，一次做几百个 token 的块。

Jeff Dean：

现在新模型不断出现，从 MoE 到新 attention 机制，你最兴奋的是什么？

新模型现在出现得非常快：新的 attention 形式、diffusion transformer、state space transformer、hybrid model。你现在看整个“模型动物园”，最让你兴奋的是什么？

Bill Dally：很明显的一个方向是：参数越来越大，但激活越来越稀疏。

Jeff Dean：所以是 MoE。

Bill Dally：对，MoE。

这件事对硬件影响很大。因为总参数量很大，但你每次真正激活的只是其中一小部分。而麻烦在于，当你有一个 batch 时，里面不同样本常常会激活不同 expert，这就很烦。

Jeff Dean：对，这某种程度上会把 batching 的优势给毁掉，因为大家现在都跑去不同地方了。

Bill Dally：没错。原来是一个大 batch，现在一下子变成很多小 batch。

另外，在 attention 这边，我觉得也有很多很有意思的改进空间。

原始 quadratic attention 在质量上确实非常好，但只要 token 数量一上来，它的代价就会非常高。所以如果你想把上下文推到一百万 token 以上，就必须做点什么。

有一类办法，是大幅降低 quadratic attention 的常数项。比如你先对 token chunk 做 attention，再识别哪些 chunk 最重要，只深入那些 chunk，而不是对全部 token 做 full attention。

Jeff Dean：不过严格来说，这不一定改变复杂度，只是把你真的深入处理的部分变小了。

Bill Dally：对。但也还有一些更激进的办法，比如你先聚类 attention state，再只看和当前 query 最接近的 cluster。这些方向有可能把复杂度做到 N log N，甚至更低。

Jeff Dean：对，这些方向都很有意思。当然一般的 trade-off 是：你往往会损失一点点相对于 full quadratic attention 的质量。

但我自己更兴奋的一件事，其实是另外一条路。

今天模型表现好，很大程度上是因为你把正确的信息放进了上下文窗口，它就能 attend 到它。但真正理想的状态当然不是“一百万 token 上下文”，而是我能够“好像 attend 到所有信息”——比如整个互联网，或者我个人所有的邮件、照片等等。

显然，那远远不止一百万 token。

所以我觉得更合理的办法是：通过一层一层更轻量级的检索机制，先从一个极大规模的信息池里筛出最相关的部分，再一步步缩小到真正送进上下文窗口的那部分内容。

比如，不是从一万亿 token 直接缩到一百万。而是先缩到一万个最相关文档，也许相当于一两千万 token；然后再用更轻量级的机制，从里面找出最终真正值得塞进上下文的那一百万 token。

我对这种分层架构非常兴奋。因为它能让你做到今天单纯靠增加 attention window 做不到的事情。

Bill Dally：有点像一种分层注意力机制。

Jeff Dean：对，我觉得这条路很有前景。

Jeff Dean：

我很相信 AI for chip design（为芯片设计的 AI）。

你怎么看 AI 在整个硬件设计流程里的作用？

如果把芯片设计过程拆开看，其实有很多阶段：高层架构探索、综合、验证、placement、layout、routing。

我们做 AlphaChip，就是用 AI 去帮助 placement 和 routing，而且它已经在几代 TPU 上被证明很有用。我也看到 NVIDIA 做了一些很好的工作，比如一些 gradient-based 方法。

那你怎么看 AI 在整个硬件设计流程里的作用？是分阶段各自突破比较合适，还是未来会走向更 end-to-end 的方式？

Bill Dally：我们现在基本上是：能用 AI 的地方都在用。

比如一个非常具体的例子。每次我们迁移到一个新的半导体制程，都要把 standard cell library 移过去，大约是 2500 到 3000 个 cell。

以前这件事要一个 8 人团队做大约 10 个月，也就是 80 person-month。

后来我们做了一个基于强化学习的系统，叫NVCell。现在大概已经是 NVCell 2 或 3 了。现在这件事只需要一块 GPU，跑一夜就行。而且结果在 cell size、功耗和延迟这些指标上，实际上能和人类设计打平甚至更好。

所以这件事是一个巨大的生产率提升。更重要的是，它让迁移到新制程不再是一件那么重的负担。

另一个例子是PrefixRL。

它用强化学习去解一个计算机设计里非常古老的问题：carry look-ahead chain 里的前瞻级到底放在哪。这个问题从 1950 年代就有人研究了。

而我们的 RL 系统就像打 Atari 游戏一样去试，做一个选择、给自己打分、再做下一步。

它追求的不是“绝对最快的 adder”，而是“刚好满足 timing，同时面积最小、功耗最低”的 adder。

结果它会吐出一些人类根本想不到的奇怪设计，但在这些指标上能比人类方案好 20% 到 30%。

再往上，我们还有一些更整体性的 LLM，叫ChipNeMo和BugNeMo。

我们把一个通用 LLM 喂进 NVIDIA 内部所有与 GPU 设计相关的专有资料——包括所有历代 GPU 的 RTL、架构规格文档、各种设计资料——这样你就得到一个非常懂 GPU 设计的模型。

它带来的一个很大收益是：过去 junior designer 会大量打扰 senior designer，问一些很基础的问题。

比如“texture unit 是怎么工作的？”“我要怎么和它做接口？”

现在他们不用总去找 senior 了，可以先问 ChipNeMo。

它会非常详细地解释 texture unit，后面你继续追问，它还可以继续回答。

Jeff Dean：它是一个非常有耐心的导师。

Bill Dally：对。在 bug 这边，我们也可以让它总结 bug report，做 attribution，判断 bug 属于哪个模块、该 assign 给谁。

在 NVIDIA，我们会决定一个 bug 该 “IRB” 给谁，也就是谁来负责。现在这些事情也可以让系统先给出建议。

再往上，在 NVIDIA Research 里，我们已经开始用 agentic systems 去做架构探索。

你可以让 agent 跑很多 thought experiment、探索参数空间、提出不同方案、跑简单架构实验，然后逐步把巨大的设计空间缩小。

而我们非常想缩短的一段时间，是从 F model——也就是 GPU 的可执行模型——到真正 tape-out 之间的时间。

这段时间里，最长的长板其实是设计验证。所以我们特别关注怎么用 AI 更快地证明设计是对的。

中间还有一些阶段也非常适合自动化。比如 RTL 设计完成后，为了 floor planning，你要把某些逻辑从一个模块搬到另一个模块，同时还要保证系统继续正确。这类事情我觉得就非常应该能自动化。

当然，理想情况是我只要说一句：

“Design me the new GPU.”

然后我出去滑几天雪，回来发现它已经做完了。

但我觉得那还很远。不过，即便如此，AI 今天已经在很多局部环节上显著提高了我们的生产率。

Jeff Dean：对，我觉得真正困难的是，让每个自动化环节都快到足以支持你在巨大设计空间里做搜索，这本身就非常难。

Bill Dally：是。而且即便未来真的走向端到端，我猜也会是一个 master agent 去调用很多专门负责不同阶段的 Agent，再不断迭代。

Jeff Dean：甚至会像今天人类芯片团队一样拆开：这个 Agent 负责这一部分芯片，那个 Agent 负责另一部分，中间通过清晰接口协作，必要时还要协商接口变化。

Bill Dally：对。它们会开和我们今天一样的会，只不过是 Agent 之间的会。

Jeff Dean：

如果未来出现 agent swarm，最大的系统挑战是什么？

我顺着 agent 这个话题继续问。如果未来真的出现大量虚拟工程师、swarm of agents 在复杂项目上协作，那么 orchestration 和 continual learning 上最大的挑战会是什么？像 hierarchical rewards、sparse activations、dynamic model growth 这些，你觉得硬件在哪些地方最可能真正帮上忙？

Bill Dally：我觉得现在机器学习里一个很大的挑战是：怎样让系统在 reward signal 非常 sparse、而且不像数学和编程那样容易验证的任务上，也能学得很好。

如果这个问题真的被突破了，那模型能掌握的能力边界会大幅扩展。

但在 agent 系统里，我觉得还有一个非常现实的问题。这些系统通常会滚出很多 trajectory。我们当然希望它们越低延迟越好，让模型更快地产生下一段代码、下一组动作，然后再继续和环境互动。

但它们经常是通过一些为人类速度设计的工具和环境交互。

这些工具本来就是按人类操作节奏设计的。而且很多还跑在 CPU 上。

所以，比如说一个 C 编译器的启动时间，对人类程序员来说也许只是“有点慢”；但如果一个 agent 的运行速度是人类的 50 倍，那这个启动时间就会变成类似 Amdahl’s Law 的硬瓶颈。

也就是说，就算你把模型做得无限快，你端到端延迟最后也许还是只会降两三倍，因为工具本身占了很大一部分。

所以我觉得，未来我们得重新工程化很多 agent 要交互的工具。这件事已经在 coding tools 上发生了，也会发生在电子表格、文档系统、信息提取工具上。

Jeff Dean：你觉得这种变化现在已经在 coding tools 上明显发生了吗？

Bill Dally：对，已经在发生了。而且不止 coding，会扩展到更多办公和知识工作工具上。

Bill Dally：

你讲能耗时最打动我的一句话是，“真正贵的是把数据搬过来”。

未来最大的能效突破会来自哪里？

我在不少场合听你讲过能耗这个问题。最让我印象深刻的一点是：真正的 multiply-add 本身非常便宜，真正贵的是把数据从内存系统远处搬过来。

在这种背景下，你觉得未来最大的能效提升会来自哪里？

Jeff Dean：先把数字说得精确一点。

比如一个 NVFP4 的 multiply-add，大概是 10 femtojoules。

但如果你要把那四五个 bit 从 HBM4 里读出来，每 bit 也许是 3 到 4 picojoules，所以总共大概是 15 picojoules。

也就是说，从外部内存读一个 NVFP4 数字的能耗，比做一次 multiply-add 本身高大约1000 倍。

但如果是从一个简单的 SRAM bank 里读，代价就又会回到 10 femtojoules 量级。

所以降低能耗最关键的原则就是：

Don’t move the data.

大家会笑，但我是认真的。

这真的就是核心。

比如，我们现在在看一些设计，让矩阵的一行放在 SRAM 里，同时 activation vector 的一行也尽量就地拿到，然后就在那个位置完成 dot product。

这样你其实做了两件事：

一次性做很多 multiply-add，几乎没有 data movement；

把一个长向量直接规约成一个输出。

所以我们在看很多类似的思路。

问题当然在于，SRAM 按 bit 来算太贵了，大概比 DRAM 贵一个数量级。

所以我们更兴奋、但还没完全 ready 的方向，是把 DRAM 直接堆在计算芯片上方。

因为 DRAM 读取时，大部分能耗其实不是“读 DRAM mat”本身，而是把那个 bit 从 DRAM 读出位置一路搬到 GPU pin 的过程。如果 DRAM 直接堆在 GPU 上方，你就能得到：

一个数量级更高的带宽；

一个数量级更低的每 bit 能耗。

结果就是：差不多同样的功耗，但性能会高很多。

某种意义上，这有点像一个 pachinko machine。

你想要的那个 bit，直接从上面掉到下面的 operation 单元里。

当然，更高效的模型本身也会帮助能耗下降。如果你用更少的 work 达到同样精度，那当然也会更省能量。

我觉得这里一个真正可能很有帮助的方向还是sparsity。从 Ampere 开始，我们已经用过 2:1 structured sparsity。但模型其实天然是非常稀疏的。

问题在于，除了像 2:1 structured sparsity 和 MoE 这种非常粗粒度的稀疏形式之外，更一般的稀疏很难在硬件上真正赢回来。

因为一旦你利用更自由的稀疏，你就会打破规则性。

而规则性恰恰是高效计算的基础——所有 bit 规则地向前走，数据流很稳定。你一旦破坏这种规则性，就要做更多控制、更多路由，反而可能把收益吃掉。

所以我觉得，这其实是一个非常有意思的开放问题：下一层稀疏到底怎么做。

Jeff Dean：

TPU 采用的 2D/3D环形拓扑（Torus）和全交换网络相比，到底该如何权衡？

我想问个提纲之外的问题。我们的 TPU 通常采用定制网络，比如 2D 或 3D Torus 这种点对点结构，且能扩展到上万颗芯片。这和全交换互连架构（Fully switchable network fabric）走的是完全不同的路线。你怎么看这两者的折衷（Trade-off）？

Bill Dally：问得好。你也知道，我职业生涯很长一段时间都在研究互连网络。

2D/3D Torus 在很多场景下表现卓越。实际上，80 年代末到 90 年代初，我曾亲手推动了一整代 3D Torus 超级计算机（如 Cray T3D）。

但到了 2000 年代，情况变了。芯片的引脚带宽（Pin bandwidth）变得极高。如果你设计一个路由芯片，却只给它 6 个方向（即 3D Torus 的 6 个双向端口），你会发现带宽根本吃不满。于是我们转向研究高基数路由器（High-radix routers），开始采用折叠 Clos（Folded Clos，即胖树 Fat Tree）以及 Dragonfly（蜻蜓）等拓扑结构。

但结论其实很简单：不能抽象地评判优劣。核心永远取决于业务负载（Workload）和流量模式（Traffic pattern）。

如果你的负载具有很强的局部性，那么像 Torus 这样直接互连、低基数的网络非常理想，数据只需“一跳”即可到达。但如果你跑的是 MoE ，专家模块分散在各地，为了找到特定专家，数据可能要经过很多轮跳跃（Hop）。此时，“一跳上交换机、一跳下交换机”的方案反而更高效。

我们在一些实验性系统里经常做混合架构（Hybrid）。比如，局部通信采用直接互连，甚至带一点 Flattened Butterfly（扁平蝴蝶）拓扑的味道，让它的覆盖范围比 Torus 更广；而全局通信则走专门的交换网络。

Jeff Dean：完全同意。归根结底还是取决于负载。

Bill Dally：没错。针对特定的流量模式，你可以找到最优网络；但不存在一种拓扑能通吃所有场景。

Bill Dally：

这些系统越来越强之后，它们最积极的社会影响会是什么？

如果我们继续把这些系统做得越来越强，模型越来越大、机器越来越强，你觉得它们最积极的社会影响会是什么？教育？医疗？商业效率？你最期待哪个方向？

Jeff Dean：这是一个非常好的问题。

显然，AI 可以被应用在很多领域，其中一些会带来非常大的社会收益，比如教育和医疗；也有一些方向可能并不是我们特别希望看到大规模使用的。

我和一些合作者大约一年前做过一个系统梳理，甚至有个单独的网站，叫shapingAI.com。我们当时看了七个可能被 AI 深刻改变的领域，包括教育、医疗、劳动与就业、科学发现，还有媒体——包括视频生成、图像生成，以及误传误报这样的潜在负面后果。

而我自己尤其兴奋的是：教育和医疗。

如果看教育，我们早就知道：当一个学生拥有一个真正个性化的辅导老师——这个辅导老师知道他已经会什么、不会什么，知道教材是什么，也知道这个人最适合怎么学习——那教学效果会比群体教学高出大约一到两个标准差。

Bill Dally：而 AI 可以让每个人都拥有一位个性化辅导老师。

Jeff Dean：对。如果每个人都能拥有一个真正知道自己如何学习的辅导老师，那会完全不一样。

而且现在这些模型有一个很好的能力：它们能把一种形式转换成另一种形式。这对不同学习风格的人会非常有帮助。

比如有的人更适合听播客来学某一章生物；有的人更想通过一个互动游戏去理解重力，而不是直接看物理教材里的方程；这样他们会更快建立直觉。

我觉得，在未来几年里，我们完全有机会拥有那种真正优秀的辅导教育：它不会直接把答案给你，但它会帮助你更好地理解概念、更有效率地学习。

Bill Dally：很有意思的是，今天很多学校还在试图限制 AI 的使用。但也许他们更应该做的，是教学生如何有效地和 AI 一起工作。

Jeff Dean：这件事甚至和“要不要让学生使用 AI”几乎是正交的。

如果你回想计算器刚进入数学课堂的时候，也有很多老师说：不能用计算器，否则学生以后不会加法和乘法。但真正发生的是，数学教育终于可以把重点从机械计算，转移到更高层次的理解。

所以我觉得，教育者应该真正拥抱这些工具的存在。

那我也想反过来问你：对你来说，最让你兴奋的 AI 应用领域是什么？

Bill Dally：对我来说，第一当然还是 AI for hardware design。

毕竟我骨子里还是个硬件设计师。我当然希望有一天，我的工作只需要 15 分钟就能做完，然后剩下时间都去干更有趣的事。

这里面已经有很多立刻就有生产力价值的东西。

比如把一个项目所有文档都记住，然后我能快速查询；

比如总结 bug report。

再往前一点，如果你足够详细地教会它 texture unit 是怎么工作的，它现在大概已经能设计出一个相当不错的 texture unit。

更难的是另一类问题：比如把 Blackwell 这一代的 texture unit 迁移到 Rubin 这一代，告诉它哪些新功能要加、哪些旧功能废弃掉，然后要求它用最小改动把代码树迁过去。这个难得多。

但除此之外，对我来说第二个最让我兴奋的方向也是教育。

我做过 26 年教授，所以某种意义上，我算是一个“康复中的教育工作者”。

我真心希望已经有人在做这件事。如果没有的话，也许我该辞职自己去做：一个真正好的个性化辅导教师。

另外还有一个和它很像的方向个性化健康教练。就像一个小天使坐在你肩膀上。

比如我今天去听黄仁勋的 panel，到了休息区时正餐已经没了，只剩一堆甜点。于是我的午饭就是甜点。如果我肩膀上有个健康教练，它大概会把我劝住。

很多国家的健康问题，本质上其实都和饮食、运动有关。如果每个人都有一个了解自己、知道怎么激励自己、目标和你一致——也就是“不想让你死”的——健康教练，那会很有价值。

Jeff Dean：这里说的是健康场景，不是教育场景，对吧？

Bill Dally：对。微积分课上不是那种语气。

Jeff Dean：我对健康领域也非常兴奋。因为今天其实有很多和健康相关的信息完全没有被真正用进医疗系统。

比如我戴着一个能监测心率的手表，但我的医生会看这些数据吗？不会。

Bill Dally：而且我们完全可以给每个人做测序。这样你就会知道他对某些疾病的易感性、对某些药的反应。这些很多其实已经是已知信息了，但现在基本没有被大多数医疗机构真正用起来。

Jeff Dean：你说的这个想法，我觉得真的很好。因为医疗系统本身确实有很多挑战。

Bill Dally：而且它甚至可以去和医生说：你考虑过 Dally 教授有这个特殊病症吗？这个药可能对他效果不好。

Jeff Dean：我甚至都能想象它会提醒你：“我看到你这周第四次去麦当劳了。你知道拐角有一家很好的沙拉店吗？”所以我确实觉得，AI 在医疗上的影响会非常大。

当然，这个领域很复杂，因为隐私和监管问题都是真实存在的。

但我觉得我们至少应该有一个理想目标：尽可能让过去全世界的医疗决策，更多地用来帮助未来的医疗决策。

如果我们能尽量接近这一点，那会非常了不起。

Jeff Dean：

NVIDIA 过去十年增长巨大。你最怀念以前公司小的时候什么？

我想问你一个更偏哲学一点的问题。NVIDIA 在过去十年里增长非常快。你们招了很多人，公司规模、影响力都大得多了。

那你最怀念以前什么？

哪些东西以前很好用，现在在更大规模下已经不那么管用了？

Bill Dally：

这个问题很有意思。

我 2003 年开始给 NVIDIA 做咨询，那时我还在 Stanford 当老师。那时候 NVIDIA 大概就一千人上下。

当时的状态是：你当然不认识每一个人，但你认识你需要认识的每一个人。决策非常快，几乎没有官僚作风（bureaucracy）。

有很多东西我都很怀念。

因为现在确实已经有官僚气息了。英伟达变成一个 4 万多人的公司——虽然按人数来说我们还算是个相对小公司——就不可避免会出现很多规则，也会出现一些官僚，妨碍事情以“光速”推进。

但另一方面，这也是大公司不可避免的一部分。

公司小时候，大家之所以会自然地做对的事，是因为你会觉得自己是一个社区的一部分，不会想做让同伴失望的事。

公司大了，这种社区感会弱一些，于是规则就开始变多。

所以我大概最怀念的是那种社区感。但同时，黄仁勋又非常了不起的一点在于：即便到了 4 万人，NVIDIA 在一阶近似上还是有初创公司的感觉，这一点我非常喜欢。

而且，公司变大之后，也有很多以前根本不可能做到的事情，现在终于可以做了。所以我们还是得利用这种规模和资源，去做最大的好事。

Jeff Dean：对，我有很类似的感受。我加入 Google 的时候，公司还很小，我们挤在 Palo Alto 市中心一栋楼上，那地方现在好像已经变成 T-Mobile 门店了。现在 Google 已经快 18 万人了。

公司每翻倍一次，都会有一些以前非常好用的机制突然没那么有效了。你就得不断在组织里加入恰到好处的新方式，但又不能让事情变得过度官僚。

这是个持续的挑战。

本文来自微信公众号“AI科技大本营”，36氪经授权发布。

发布时间：2026-03-19 13:38

GTC 巅峰对话 Jeff Dean x Bill Dally：预训练范式已死、延迟瓶颈不在计算、谈透 AI 五年未来

Bill Dally：

过去一年，机器学习里最让你兴奋的变化是什么？

明年又会发生什么？

Jeff Dean：

所以我想反过来问你们 NVIDIA：

你们下一代架构准备怎么把“显著的延迟降低”真正做出来？

我们怎么从今天的几百 token/s，走到几千、甚至几万 token/s？

我们怎么从几百 token/s 走到几千、几万？

下一代低延迟推理架构该怎么做？

Bill Dally：

下个问题。我们距离“让 Gemini 去设计下一代 Gemini”还有多远？

Jeff Dean：

硬件项目今天立项，两年后芯片才进机房。

你们怎么预测两到五年后的 AI？

Bill Dally：

如果数据快挖完了，我们还怎么继续 scale 模型？

Bill Dally：

LLM 会不会有一天像 AlphaGo 一样，在环境中行动、自己变强？

你会不会觉得，未来 LLM 也会走到类似 AlphaGo 的路上？

比如模型彼此交互，或者在某个环境里持续行动，从而让自己的能力不断提高。

Jeff Dean：

训练负载当然重要，但 推理负载现在越来越关键。

你怎么看训练和推理硬件的差别？

Jeff Dean：

现在新模型不断出现，从 MoE 到新 attention 机制，你最兴奋的是什么？

Jeff Dean：

我很相信 AI for chip design（为芯片设计的 AI）。

你怎么看 AI 在整个硬件设计流程里的作用？

Jeff Dean：

如果未来出现 agent swarm，最大的系统挑战是什么？

Bill Dally：

你讲能耗时最打动我的一句话是，“真正贵的是把数据搬过来”。

未来最大的能效突破会来自哪里？

Jeff Dean：

TPU 采用的 2D/3D环形拓扑（Torus） 和 全交换网络相比，到底该如何权衡？

Bill Dally：

这些系统越来越强之后，它们最积极的社会影响会是什么？

Jeff Dean：

NVIDIA 过去十年增长巨大。你最怀念以前公司小的时候什么？

260亿，最快盈利新势力港股敲钟：武汉老树开新花，一年净利10个亿

中国首座机器人超过常住人口的城市，可能会在这里诞生

训练负载当然重要，但推理负载现在越来越关键。

TPU 采用的 2D/3D环形拓扑（Torus）和全交换网络相比，到底该如何权衡？