DeepSeek再放大招,国产大模型坐不住了

过去一年多,大模型圈每季度至少经历一次牌面重洗。有人在多模态端连出三张底牌,有人在Agent赛道一把梭哈,还有人干脆掀了桌子,把模型拆成零件来卖。

但所有人都在等一个人出牌。

这人一年多没动静。2025年1月R1发布之后,他就像从牌桌上消失了。中间V3.1、V3.2、FlashMLA、DualPath这些零零散散的更新,充其量算在桌下换了一手牌,没人知道他手里到底攥着什么。

4月24日,DeepSeek终于把牌撂下来了——V4预览版正式上线并开源,两个版本:V4-Pro和V4-Flash。

Pro对标顶级闭源。Agent Coding模式下,内部测评体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式。世界知识测评大幅领先其他开源模型,仅稍逊于Gemini Pro 3.1。数学和代码推理性能上,官方称“超越当前所有已公开评测的开源模型”。

Flash是轻量版,推理能力接近Pro,但参数和激活更小,API响应更快,成本更低。两款都支持百万token上下文——而且是标配。

问题来了:一家公司,在同行疯狂跑马圈地的十五个月里基本沉默,一出手却直接把自己钉回了行业锚点,这说明什么

说明牌桌上的人根本没离开过。他只是换了一种打法。

架构的延续性革命

要理解V4,先得回看V3。

2024年底,当时大模型行业的主流叙事还是“参数越大越强”。训练一个大几千亿参数的模型,成本动辄千万美元起步。DeepSeek V3用6710亿总参数、每次推理激活37B专家的MoE架构,把单次训练成本压到了500万美元出头。

不靠砍参数量,靠MoE路由策略、DSA注意力机制和工程层面的极致优化,说白了,把每一分算力都花在刀刃上。

V4走的还是这条路,但走到了更远的地方。

技术规格上,V4完整版总参数跃升至1.6万亿,2850亿的Lite版作为更经济的选项。注意力机制升级为DSA2,整合了DeepSeek V3/R1中的DSA设计,同时引入今年初论文中提出的NSA稀疏注意力方案。MoE系统启用Mega内核结构,每层配置384个专家,每次推理激活其中6个。残差连接沿用Hyper-Connections方案,这条路在近期的DeepGemm更新中已有预演。

这些名词堆在一起,外行看着像天书,但业内人一眼就能读出含义:V4是DeepSeek过去两年来所有技术积累的集大成。

但最值得关注的变化,在于它的实现方式。

V4延期发布的真正原因,不是什么bug修不完,而是DeepSeek把整套系统从英伟达生态搬到了华为昇腾芯片上。

这不是换个驱动的事儿。DeepSeek R1当年对英伟达GPU的PTX底层做了极致优化,这是它“花小钱办大事”的核心竞争力。PTX是CUDA生态里的中间语言,深入到这层,才把当时能压榨的性能都压了出来。但转到华为昇腾之后,基于英伟达的所有工程积累全部作废。整套底层代码、调度逻辑、工程体系,要重写一遍。

难度在哪里?大模型参数达到万亿级别之后,算力压力从“纯计算”转向了“系统调度与通信”。DeepSeek V4虽然通过MoE降低了单次推理的计算量,但对内存带宽、芯片间互联、KV Cache管理的要求反而更高了。

英伟达生态里,Hub上关于H100/B200通过NVLink构建高带宽互联的讨论早已证实,其单节点GPU间带宽可达TB/s级别。昇腾在这些指标上有明显差距,更多依赖光模块进行跨节点扩展,会引入额外的延迟和同步开销。软件层面,昇腾的CANN框架在算子覆盖、自动并行、内核融合等方面的成熟度,与CUDA生态仍不是同一个量级。

代价就是时间。V4原计划今年农历新年或2-3月发布,一路推到4月才亮相。按路透社的报道,V4将运行在华为最新的昇腾芯片上,工程师花了大量时间重写核心代码。V4计划发布两个版本:完整版面向华为昇腾芯片,轻量版可在其他国产芯片上运行。

这件事的意义怎么强调都不过分。过去两年,大模型世界建了一座巨大工厂,所有的工具、标尺、流水线都是英文写的。你在这个工厂里干活,就必须用别人的工具。英伟达CEO黄仁勋近期的反应很能说明问题,他说DeepSeek基于华为平台的新模型“对美国来说将是一个糟糕的结果”。这话从英伟达老板嘴里说出来,分量绝对不轻。

一旦有顶级模型在中国国产硬件上跑通了稳定高效的推理,美国芯片的护城河就不再牢固。而在4月24日的发布中,官方已明确回应,V4在下半年将正式支持华为算力。

推理端开始降价,百万token的平权

架构的优化落到地面,看的是成本。而成本控制这件事,DeepSeek以前干过一次了。

2025年初,当各家大模型还在拼训练端烧钱速度的时候,DeepSeek V3用一套优化到极致的MoE加DSA架构,把同等参数量级下的训练成本砍到了业内平均水平的几分之一。有评论称之为“训练端通缩奇迹”。

但过去一年,AI行业的问题已经从“怎么训出一个好模型”变成了“怎么让好模型被用得起”。2026年中国日均Token调用量突破140万亿,两年间涨了一千多倍。当调用量以这个速度膨胀,推理成本就成了唯一的命门。

V4在推理端做了两道减法。第一道在架构层面:注意力机制从密集计算改为DSA2稀疏注意力,Token维度直接做压缩。官方表述是“相比传统方法,对计算和显存的需求大幅降低”。第二道在精度层面:支持FP4精度,对显存的要求在FP8基础上再降一半。

路透社此前报道的推算也佐证了效率控制的成果:V4每个token仅激活约370亿参数,推理成本与V3保持在同一量级。参数量翻了不止一倍,推理成本却没涨。这意味着大到需要算力集群的企业,小到调用API的创业者,都能在更大规模的模型上维持相近的预算

而DeepSeek长期以来的定价也起到了降低门槛的作用。模型好用,用得便宜,调用量自然持续增长。反过来持续分摊摊销研发投入,再推动更大规模模型的开放,形成一个正向飞轮。

这个逻辑过去一年在开源模型里跑通了不止一家,V4大概率是这条路上最新的加速器。

V4还有一个容易被忽视的信号:百万token上下文成为标配。

一年前,1M上下文还是Gemini独家的王牌,其他所有闭源模型普遍在128K或200K之间,开源生态几乎没人碰这个量级。DeepSeek没有把它包装成高端增值服务,而是明确宣布从今天开始,V4所有官方服务的上下文默认都是1M。而且开源。

它的技术路线也解释得很干脆。用一种全新的注意力机制在token维度上做压缩,同时配合DSA稀疏注意力,直接把传统Attention的计算量和显存需求量削了下去,使得模型处理1M上下文时的实际开销并不比处理128K高多少,甚至可以忽略不计。

此前的方案为了支撑长上下文,往往要追加内存、增加缓存层级。而V4把这条路走了个捷径,且已经开放给所有人。

这意味着什么?中小开发者用零门槛把整本《三体》塞进提示词,法律合同分析可以全文一次性送入模型,长周期多轮Agent调用完全免去记忆压缩的魔改。

2025年,大模型行业的叙事还是“能力平权”,开源模型追上闭源,大家都能用。2026年,叙事进一步延伸,变成“使用平权”,好模型不仅要追得上,还得用得起、用得方便。

当把1M上下文和Agent能力同时开放,开发者的天花板一下子被抬高了很多。而这扇门打开之前,做Agent的团队光是处理超长上下文的记忆管理就要花掉一半精力。

大厂的焦灼和各自的算盘

V4的发布会不是在真空中开的。牌桌上已经换了不知道几轮玩家。

大厂这边,各家动作密集到了“每周都有新东西”的程度。2026年马年春节前后,字节、阿里、腾讯、百度四家累计投入超45亿元,以红包、免单、科技礼品等形式推动AI应用走向全民。

技术竞赛进入胶着状态。2月,阿里、字节、MiniMax密集发布新一代模型产品,MiniMax M2.5、Kimi K2.5、GLM-5等中国模型在OpenRouters上的Tokens消耗数已排进全球前三。

前不久,腾讯发布混元世界模型2.0,支持二次编辑并直接导入Unity和UE引擎;阿里ATH事业部发布HappyOyster世界模拟器,支持高保真动态场景生成。同月,京东探索研究院开源自研的JoyAI-Image-Edit图像模型,切入了AI空间理解的核心难题。

云厂商的模型策略也从“押注一颗独苗”转向了多模型整合。“模型超市”遍地开花,阿里云、百度智能云、腾讯云都在把多家不同厂商的模型集中纳入同一平台,按需分发推荐。这背后的逻辑很清楚,大模型正在从研发资产走向流通商品,掌握分发渠道比拥有单一模型的技术优势,市场回报更确定

而DeepSeek面临的局面比一年前复杂得多。

2026年的Agent繁荣带来了Token消耗的狂欢,从OpenClaw到Hermas都在朝同一个方向用力,把大模型调用频次推向指数级更高。智谱、MiniMax等厂商凭借海量的API调用在推理端闷声发大财,甚至推动了阿里、智谱和MiniMax自身转向闭源。

当对手的战争已经推进到了多模态全能矩阵和业务深融的Agent生态时,单一的基座能力和文本推理已经不足以构成护城河。V4不再打单点突破的孤胆英雄,而是必须同时在开源模型基准、超长上下文易用性、推理成本控制以及国产硬件支持等多个棋盘上取得优势。

从发布结果看,V4交出的答卷确实验证了它对当下竞争焦点的理解。而它面临的核心考验,其实已经被精准概括,“积累的Prompt技巧,都是基于DeepSeek架构,那在一定程度上会增加开发者更换模型的成本,形成了隐形的技术定价权”。

技术定价权的持久性,取决于V4发布之后的开源生态运营节奏和商业模式的策略纵深。

回头看,DeepSeek V3那一次,改变的是“训练成本”。当时行业共识是训练大几千亿参数的模型动辄几千万美元,DeepSeek用500万美元证明这个数字可以压缩一个量级。之后各家的训练成本预估一路走低,开源和闭源的成本基线被重新书写。

V4这次做的是另一件事:它用万亿参数级的模型,把基准能力、百万级上下文和Agent能力同时打包、拆开、开源,向行业宣告——成本这一刀接下来砍向推理端。

这对不同玩家的打击是不同的。对重注闭源的大厂来说,压力在于竞争不再只是性能对标,而是开源社区把“水电煤”的价格压穿了之后,闭源要维持溢价变得越来越困难。

从OpenAI到Anthropic,包括国内闭源巨头,面对Arch Lint的价格锚点,定价体系只会变得前所未有的透明。对于盯紧基础层算力供需的服务商来说,当推理效率大幅提高、能效持续优化,整个算力需求的预期反而可能被重新上修。

更深一层的意义在于硬件生态。黄仁勋说“DeepSeek基于华为平台的新模型对美国来说将是一个糟糕的结果”,恰好点出了这轮AI竞争的核心,从算法比拼转到系统工程能力比拼,再到硬件生态的绑定与突围

V4会不会成为第一个真正跑通国产算力闭环的万亿级大模型,现在还没有定论,但它在“去CUDA化”这条路上至少提供了一种可验证的参照系。

至于DeepSeek自己,融资、人才、商业化,该面对的问题一个不会少。据上海证券报消息,DeepSeek已启动成立以来首次外部融资,目标估值不低于100亿美元,计划筹集至少3亿美元。首代模型核心作者之一罗福莉转投小米,R1核心研究员、GRPO核心发明者郭达雅加入字节跳动Seed。

大模型赛道的残酷在于,你必须在飞驰的列车上边换轮子边踩油门,停下来哪怕三个月,就可能被甩出牌桌。

DeepSeek停了一年多,这期间对面的人一直在不停地发牌。现在它终于亮出了自己的牌。只看一个开局,胜负还远未到来,但有一点确切无误:这家公司的牌,从V3打到V4,不打散牌,一把王炸。

无论最终谁是赢家,这轮牌局的围观价值,远远胜过任何一个模型的跑分结果。

本文来自微信公众号“新眸”(ID:xinmouls),作者:李小东,36氪经授权发布。

发布时间:2026-04-24 17:08