翻完DeepSeek报告,我们发现了中国AI的默契

这两天,全球顶级大模型接连更新,重磅消息一个接一个。

中国这边也迎来热闹非凡的一周,从周一开始,Qwen、Kimi、小米、腾讯相继发布最新模型。周五,千呼万唤的 DeepSeek 终于发布 V4 双版本,引发了国内 AI 圈的一波海啸。

其中,中国迈入万亿参数俱乐部并已开源的模型有 DeepSeek 和 Kimi 两家,小米也预告了将会开源最新的万亿模型。

翻完 DeepSeek V4 近 60 页的技术报告,我们发现这两个已开源万亿模型之间的默契,比任何单打独斗都可怕。

再往前溯源的话,我们发现 DeepSeek 和 Kimi 已经是第 N 次「偶遇」了。这可能源于梁文锋和杨植麟对 Scaling Law 的共同信仰和对 AGI 的竞逐。

多次偶遇背后的一场「合谋」

从 DeepSeek-R1 和 Kimi K1.5 仅隔两小时发布,DeepSeek-NSA 与 Kimi MoBA 论文同期发表、Kimi 数学推理模型 Kimina-Prover 启发 DeepSeek-Prover V2,到如今的 Kimi K2.6 与 DeepSeek-V4 在同一周发布,齐头并进。

这两家公司不是在互相厮杀,而是在用一种近乎「开源共享」的方式,一起进步。

引用车圈的一句话说,「好的设计总是心有灵犀」。

从 Kimi K2 采用 DeepSeek V3 的 MLA 注意力机制,到 DeepSeek V4 引入了 Kimi 大规模验证的 Muon 优化器,可以说,技术上的联动,成为了行业的一个亮点。

MLA 注意力机制:DeepSeek 创新,Kimi 复用

首先要提到的是,DeepSeek 在 V3 中首创了 MLA 注意力机制,这个设计通过低秩压缩技术有效减少了显存占用,从而让长上下文推理变得可能。这个创新很快被行业广泛认可,Kimi K2 在自己的注意力机制中也采用了 MLA 注意力机制。

二阶优化器:Kimi 大规模验证,DeepSeek 跟进

除了注意力机制,另一个备受关注的突破是优化器技术。2025年2月,Kimi 发表《Muon is Scalable for LLM Training》论文,在 480 亿参数的 Moonlight 系列模型上验证了 Muon 优化器的效果,用来取代已经用了 10年 的行业标准技术 Adam。2025 年 7 月,在万亿参数 Kimi K2 中,二阶优化器 Muon 被首次大规模应用,展示了其在大规模语言模型训练中的优势。

如今,DeepSeek V4 也跟进用 Muon 优化器技术,实现训练效率的稳定性。两家公司将底层的优化技术相互吸纳,打破了技术壁垒,展现出前所未有的深度合作。

残差连接:两种不同的解决方案

说到残差连接,DeepSeek 和 Kimi 也各有突破。

DeepSeek 在 V4 中引入了 mHC 残差连接,目标也是提高信息传递的效率。通过改变多头注意力的拼接方式,mHC 提高了梯度流动的效率,实测训练效率提高了约 30%。

Kimi 提出的 Attention Residuals(注意力残差)优化了信息流的传递效率,提升了模型的表现。这一创新得到了广泛的认可,Andrej Karpathy 点评称「我们对《Attention is All You Need》的理解还不够」,OpenAI 推理之父 Jerry Tworek 点评称「我们应该重新思考一切,深度学习的2.0时代正在到来」,马斯克也在社交媒体上为此点赞,称是「令人印象深刻的研究」。

这两种方案各有特色,展现了两家公司在同一技术问题上不同的思路。

长上下文推理:两种技术路线的探索

长上下文推理是 AI 模型的一大挑战,Kimi 和 DeepSeek 在这一点上的思路也各不相同。Kimi 在 2024 年实现了百万 Token 上下文的能力,尽管这一能力非常强大,但成本问题依然很大,超长上下文的计算开销呈现出线性增长,普通开发者很难承受。

到了 2026 年,DeepSeek 和 Kimi 分别提出了两种解决方案:

DeepSeek 选择了稀疏注意力,通过让模型只关注输入中的关键部分,降低计算量,从而让百万上下文的成本变得更可接受。这种方法虽然能够精准聚焦关键信息,但设计和调优难度较大。

Kimi 则推出了线性注意力架构,改变了注意力机制的计算方式,使得计算复杂度从 O(n²) 降到 O(n),从理论上大幅降低了长上下文的计算成本。

这两种方案同样各有优势,稀疏注意力强调精准性,线性注意力则追求高效性。更重要的是,Kimi 和 DeepSeek 同时在这两条技术路线上都在发力,为未来的长上下文推理提供了多种选择。

从「两个公司」到「一套基础设施」

DeepSeek 和 Kimi 的「偶遇」故事不只是技术圈的热闹,也是关乎中国 AI 产业格局的一件大事。

GPT-4 的参数量至今未正式公布(外界估计在 1.8T 左右),Claude 3.5 Opus 同样闭源。而中国的这两家创业公司,不仅做出了同等规模的模型,还选择了全部开源。这意味着任何开发者、任何研究机构、任何企业,都可以免费获取这些模型进行二次开发和部署。

直接的结果是:企业私有化部署的成本砍到了原来的 1/10。中小企业终于能在自己的服务器上跑万亿参数级别的模型了,这事儿放在一年前,想都不敢想。

生态这块也在悄悄成形,在 OpenRouter 平台上,两者的 API 调用量稳居中国前两名;在应用层,Kimi 被海外爆款编程工具「套壳」接入,而 DeepSeek 则被日本乐天集团直接包装成了 Rakuten AI 3.0。

就连硅谷的巨头们,也不得不正视这股来自东方的力量。

在 Meta 最新模型 Muse Spark 发布的官方技术博客中,Llama 4 被直接拿来与 DeepSeek-V3.1 以及 Kimi-K2 进行性能对比:

而在黄仁勋的CES主题演讲上,黄仁勋更是将 DeepSeek 和 Kimi K2-Thinking 模型赫然放上大屏幕,作为展示其下一代 Blackwell 与 Rubin 芯片强大性能的 Benchmark 标杆:

与此同时,两家公司都在国产芯片适配上做出了实质性投入。

DeepSeek V4 首次深度适配华为昇腾芯片,推理环节将运行在国产硬件上;Kimi 的 Prefill-as-a-Service 方案则提出了跨数据中心异构硬件推理框架,允许用不同类型的国产芯片分别承担 Prefill 和 Decode 阶段,实测吞吐量提升 54%,首 token 延迟降低 64%。这为国产芯片进入大模型推理链条打开了一个现实的切入口。

黄仁勋在播客节目中说了一句意味深长的话:「芯片又不是铀浓缩,阻挡不了中国芯片的进步,他们依旧可以通过国产芯片来开发模型。」

他可能没想到,DeepSeek 和 Kimi 正在用实际行动让这一天来得这么早,这么快。

结语:两个广东人,撑起中国 AI 的半边天

技术的高度,最终取决于人的格局。

2023 年同年起步,用最短时间双双叩开百亿美金十角兽大门——DeepSeek 与 Kimi,始终保持着业内人数最精简、但人才密度最顶尖的配置。两位同样来自广东的创始人,杨植麟与梁文锋,既是技术的狂热信徒,也是被寄予厚望的中国 AI 国家队。

在总理主持召开的经济形势专家和企业家座谈会上,两人时隔一年分别建言献策,成为了中国 AI 发展史上的一个有力注脚。他们都是技术范式的引领者:DeepSeek 向世界证明了「思维链」的威力,而 Kimi 则在国内引领了「智能体」的落地狂潮。

在追逐 AGI 的这场马拉松里,没有哪一家公司可以闭门造车地跑完全程。DeepSeek 与 Kimi 之间,有竞争,也有共鸣——Muon 与 MLA 的技术互通,底层机制上惺惺相惜的探索,恰恰说明:中国 AI 真正的底气,从来不是某一家公司的单打独斗,而是这种在「偶遇」中碰撞出的技术火花,以及在开源生态里悄然生长的互利共生。

双峰并峙,终将顶峰相见。属于中国大模型的万亿级航海时代,才刚刚拉开序幕。

本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:关注AI的,36氪经授权发布。

发布时间:2026-04-25 18:02