DeepSeek再放大招，国产大模型坐不住了-新糖宝胶囊官方网站

过去一年多，大模型圈每季度至少经历一次牌面重洗。有人在多模态端连出三张底牌，有人在Agent赛道一把梭哈，还有人干脆掀了桌子，把模型拆成零件来卖。

但所有人都在等一个人出牌。

这人一年多没动静。2025年1月R1发布之后，他就像从牌桌上消失了。中间V3.1、V3.2、FlashMLA、DualPath这些零零散散的更新，充其量算在桌下换了一手牌，没人知道他手里到底攥着什么。

4月24日，DeepSeek终于把牌撂下来了——V4预览版正式上线并开源，两个版本：V4-Pro和V4-Flash。

Pro对标顶级闭源。Agent Coding模式下，内部测评体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式。世界知识测评大幅领先其他开源模型，仅稍逊于Gemini Pro 3.1。数学和代码推理性能上，官方称“超越当前所有已公开评测的开源模型”。

Flash是轻量版，推理能力接近Pro，但参数和激活更小，API响应更快，成本更低。两款都支持百万token上下文——而且是标配。

问题来了：一家公司，在同行疯狂跑马圈地的十五个月里基本沉默，一出手却直接把自己钉回了行业锚点，这说明什么？

说明牌桌上的人根本没离开过。他只是换了一种打法。

架构的延续性革命

要理解V4，先得回看V3。

2024年底，当时大模型行业的主流叙事还是“参数越大越强”。训练一个大几千亿参数的模型，成本动辄千万美元起步。DeepSeek V3用6710亿总参数、每次推理激活37B专家的MoE架构，把单次训练成本压到了500万美元出头。

不靠砍参数量，靠MoE路由策略、DSA注意力机制和工程层面的极致优化，说白了，把每一分算力都花在刀刃上。

V4走的还是这条路，但走到了更远的地方。

技术规格上，V4完整版总参数跃升至1.6万亿，2850亿的Lite版作为更经济的选项。注意力机制升级为DSA2，整合了DeepSeek V3/R1中的DSA设计，同时引入今年初论文中提出的NSA稀疏注意力方案。MoE系统启用Mega内核结构，每层配置384个专家，每次推理激活其中6个。残差连接沿用Hyper-Connections方案，这条路在近期的DeepGemm更新中已有预演。

这些名词堆在一起，外行看着像天书，但业内人一眼就能读出含义：V4是DeepSeek过去两年来所有技术积累的集大成。

但最值得关注的变化，在于它的实现方式。

V4延期发布的真正原因，不是什么bug修不完，而是DeepSeek把整套系统从英伟达生态搬到了华为昇腾芯片上。

这不是换个驱动的事儿。DeepSeek R1当年对英伟达GPU的PTX底层做了极致优化，这是它“花小钱办大事”的核心竞争力。PTX是CUDA生态里的中间语言，深入到这层，才把当时能压榨的性能都压了出来。但转到华为昇腾之后，基于英伟达的所有工程积累全部作废。整套底层代码、调度逻辑、工程体系，要重写一遍。

难度在哪里？大模型参数达到万亿级别之后，算力压力从“纯计算”转向了“系统调度与通信”。DeepSeek V4虽然通过MoE降低了单次推理的计算量，但对内存带宽、芯片间互联、KV Cache管理的要求反而更高了。

英伟达生态里，Hub上关于H100/B200通过NVLink构建高带宽互联的讨论早已证实，其单节点GPU间带宽可达TB/s级别。昇腾在这些指标上有明显差距，更多依赖光模块进行跨节点扩展，会引入额外的延迟和同步开销。软件层面，昇腾的CANN框架在算子覆盖、自动并行、内核融合等方面的成熟度，与CUDA生态仍不是同一个量级。

代价就是时间。V4原计划今年农历新年或2-3月发布，一路推到4月才亮相。按路透社的报道，V4将运行在华为最新的昇腾芯片上，工程师花了大量时间重写核心代码。V4计划发布两个版本：完整版面向华为昇腾芯片，轻量版可在其他国产芯片上运行。

这件事的意义怎么强调都不过分。过去两年，大模型世界建了一座巨大工厂，所有的工具、标尺、流水线都是英文写的。你在这个工厂里干活，就必须用别人的工具。英伟达CEO黄仁勋近期的反应很能说明问题，他说DeepSeek基于华为平台的新模型“对美国来说将是一个糟糕的结果”。这话从英伟达老板嘴里说出来，分量绝对不轻。

一旦有顶级模型在中国国产硬件上跑通了稳定高效的推理，美国芯片的护城河就不再牢固。而在4月24日的发布中，官方已明确回应，V4在下半年将正式支持华为算力。

推理端开始降价，百万token的平权

架构的优化落到地面，看的是成本。而成本控制这件事，DeepSeek以前干过一次了。

2025年初，当各家大模型还在拼训练端烧钱速度的时候，DeepSeek V3用一套优化到极致的MoE加DSA架构，把同等参数量级下的训练成本砍到了业内平均水平的几分之一。有评论称之为“训练端通缩奇迹”。

但过去一年，AI行业的问题已经从“怎么训出一个好模型”变成了“怎么让好模型被用得起”。2026年中国日均Token调用量突破140万亿，两年间涨了一千多倍。当调用量以这个速度膨胀，推理成本就成了唯一的命门。

V4在推理端做了两道减法。第一道在架构层面:注意力机制从密集计算改为DSA2稀疏注意力，Token维度直接做压缩。官方表述是“相比传统方法，对计算和显存的需求大幅降低”。第二道在精度层面：支持FP4精度，对显存的要求在FP8基础上再降一半。

路透社此前报道的推算也佐证了效率控制的成果：V4每个token仅激活约370亿参数，推理成本与V3保持在同一量级。参数量翻了不止一倍，推理成本却没涨。这意味着大到需要算力集群的企业，小到调用API的创业者，都能在更大规模的模型上维持相近的预算。

而DeepSeek长期以来的定价也起到了降低门槛的作用。模型好用，用得便宜，调用量自然持续增长。反过来持续分摊摊销研发投入，再推动更大规模模型的开放，形成一个正向飞轮。

这个逻辑过去一年在开源模型里跑通了不止一家，V4大概率是这条路上最新的加速器。

V4还有一个容易被忽视的信号：百万token上下文成为标配。

一年前，1M上下文还是Gemini独家的王牌，其他所有闭源模型普遍在128K或200K之间，开源生态几乎没人碰这个量级。DeepSeek没有把它包装成高端增值服务，而是明确宣布从今天开始，V4所有官方服务的上下文默认都是1M。而且开源。

它的技术路线也解释得很干脆。用一种全新的注意力机制在token维度上做压缩，同时配合DSA稀疏注意力，直接把传统Attention的计算量和显存需求量削了下去，使得模型处理1M上下文时的实际开销并不比处理128K高多少，甚至可以忽略不计。

此前的方案为了支撑长上下文，往往要追加内存、增加缓存层级。而V4把这条路走了个捷径，且已经开放给所有人。

这意味着什么？中小开发者用零门槛把整本《三体》塞进提示词，法律合同分析可以全文一次性送入模型，长周期多轮Agent调用完全免去记忆压缩的魔改。

2025年，大模型行业的叙事还是“能力平权”，开源模型追上闭源，大家都能用。2026年，叙事进一步延伸，变成“使用平权”，好模型不仅要追得上，还得用得起、用得方便。

当把1M上下文和Agent能力同时开放，开发者的天花板一下子被抬高了很多。而这扇门打开之前，做Agent的团队光是处理超长上下文的记忆管理就要花掉一半精力。

大厂的焦灼和各自的算盘

V4的发布会不是在真空中开的。牌桌上已经换了不知道几轮玩家。

大厂这边，各家动作密集到了“每周都有新东西”的程度。2026年马年春节前后，字节、阿里、腾讯、百度四家累计投入超45亿元，以红包、免单、科技礼品等形式推动AI应用走向全民。

技术竞赛进入胶着状态。2月，阿里、字节、MiniMax密集发布新一代模型产品，MiniMax M2.5、Kimi K2.5、GLM-5等中国模型在OpenRouters上的Tokens消耗数已排进全球前三。

前不久，腾讯发布混元世界模型2.0，支持二次编辑并直接导入Unity和UE引擎；阿里ATH事业部发布HappyOyster世界模拟器，支持高保真动态场景生成。同月，京东探索研究院开源自研的JoyAI-Image-Edit图像模型，切入了AI空间理解的核心难题。

云厂商的模型策略也从“押注一颗独苗”转向了多模型整合。“模型超市”遍地开花，阿里云、百度智能云、腾讯云都在把多家不同厂商的模型集中纳入同一平台，按需分发推荐。这背后的逻辑很清楚，大模型正在从研发资产走向流通商品，掌握分发渠道比拥有单一模型的技术优势，市场回报更确定。

而DeepSeek面临的局面比一年前复杂得多。

2026年的Agent繁荣带来了Token消耗的狂欢，从OpenClaw到Hermas都在朝同一个方向用力，把大模型调用频次推向指数级更高。智谱、MiniMax等厂商凭借海量的API调用在推理端闷声发大财，甚至推动了阿里、智谱和MiniMax自身转向闭源。

当对手的战争已经推进到了多模态全能矩阵和业务深融的Agent生态时，单一的基座能力和文本推理已经不足以构成护城河。V4不再打单点突破的孤胆英雄，而是必须同时在开源模型基准、超长上下文易用性、推理成本控制以及国产硬件支持等多个棋盘上取得优势。

从发布结果看，V4交出的答卷确实验证了它对当下竞争焦点的理解。而它面临的核心考验，其实已经被精准概括，“积累的Prompt技巧，都是基于DeepSeek架构，那在一定程度上会增加开发者更换模型的成本，形成了隐形的技术定价权”。

技术定价权的持久性，取决于V4发布之后的开源生态运营节奏和商业模式的策略纵深。

回头看，DeepSeek V3那一次，改变的是“训练成本”。当时行业共识是训练大几千亿参数的模型动辄几千万美元，DeepSeek用500万美元证明这个数字可以压缩一个量级。之后各家的训练成本预估一路走低，开源和闭源的成本基线被重新书写。

V4这次做的是另一件事：它用万亿参数级的模型，把基准能力、百万级上下文和Agent能力同时打包、拆开、开源，向行业宣告——成本这一刀接下来砍向推理端。

这对不同玩家的打击是不同的。对重注闭源的大厂来说，压力在于竞争不再只是性能对标，而是开源社区把“水电煤”的价格压穿了之后，闭源要维持溢价变得越来越困难。

从OpenAI到Anthropic，包括国内闭源巨头，面对Arch Lint的价格锚点，定价体系只会变得前所未有的透明。对于盯紧基础层算力供需的服务商来说，当推理效率大幅提高、能效持续优化，整个算力需求的预期反而可能被重新上修。

更深一层的意义在于硬件生态。黄仁勋说“DeepSeek基于华为平台的新模型对美国来说将是一个糟糕的结果”，恰好点出了这轮AI竞争的核心，从算法比拼转到系统工程能力比拼，再到硬件生态的绑定与突围。

V4会不会成为第一个真正跑通国产算力闭环的万亿级大模型，现在还没有定论，但它在“去CUDA化”这条路上至少提供了一种可验证的参照系。

至于DeepSeek自己，融资、人才、商业化，该面对的问题一个不会少。据上海证券报消息，DeepSeek已启动成立以来首次外部融资，目标估值不低于100亿美元，计划筹集至少3亿美元。首代模型核心作者之一罗福莉转投小米，R1核心研究员、GRPO核心发明者郭达雅加入字节跳动Seed。

大模型赛道的残酷在于，你必须在飞驰的列车上边换轮子边踩油门，停下来哪怕三个月，就可能被甩出牌桌。

DeepSeek停了一年多，这期间对面的人一直在不停地发牌。现在它终于亮出了自己的牌。只看一个开局，胜负还远未到来，但有一点确切无误：这家公司的牌，从V3打到V4，不打散牌，一把王炸。

无论最终谁是赢家，这轮牌局的围观价值，远远胜过任何一个模型的跑分结果。

本文来自微信公众号“新眸”（ID：xinmouls），作者：李小东，36氪经授权发布。

发布时间：2026-04-24 17:08

DeepSeek再放大招，国产大模型坐不住了

架构的延续性革命

推理端开始降价，百万token的平权

大厂的焦灼和各自的算盘

在线音乐下半场，QQ音乐能不能守住？

2014年的大基金让中国有了芯片，这一次，大基金要给中国换一张「碳」的底牌