6月29日晚,DeepSeek宣布V4正式版将于7月中旬正式上线。
公告中说明:为了更合理地配置资源、提升服务稳定性,正式版发布后将同步调整API定价策略,引入峰谷定价机制。
过去两周,和DeepSeek相关的还有两件大事:
一是6月16日,DeepSeek完成了成立以来首轮外部融资,募资总额510亿元,估值将近4000亿元,打破创始人梁文锋立下“不融资、不上市、不商业化”的原则。
二是融资后仅十几天,6月27日,DeepSeek团队联合北京大学发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》,创始人梁文锋位列论文作者名单。
如果说DeepSeek上半场的任务是证明自己能够做出世界一流的大模型。下半场,当“资本”和“技术”相汇,DeepSeek要拿着融资的钱,向世界证明,它是一家真正意义上的商业公司。
融资以来,DeepSeek Harness团队的新负责人崔添翼一刻没闲着。
6月25日晚,DeepSeek在社交平台发布大规模招聘信息,覆盖算法、研发、运维、产品、数据工程师及职能部门等7大类、共33个岗位,工作地点包括北京和杭州,所有岗位均接受实习。
在DeepSeek官网官号、Boss直聘、X和小红书等各类社交平台上,都能看到这位梁文锋的浙大校友、今年3月加入团队的负责人下场招人,顺便抽空“辟谣”。
图为 崔添翼在小红书上回应“DeepSeek招人卡清华级学历,还卡豆包经历”的评论
此前,DeepSeek更像一个沉默、低调、闷声干活的技术员,背靠梁文锋创办的量化私募基金“幻方量化”。幻方量化2025年年化收益率56.55%,管理规模超过700亿元,让DeepSeek不需要依赖外部资本。
在外界看来,DeepSeek似乎“并不缺钱”。
让梁文锋改变融资态度的潜在可能是,核心人才流失和外部抢人大战加速。
作为参照系,已经抢先上市的“大模型第一股”智谱,截至6月30日,总市值接近万亿港元,MiniMax的市值也超过1300亿港元。
反观DeepSeek,员工手里的期权仍是一张白纸,公司不融资、不上市、没有外部估值参考。
“不融资,它的估值就不往上走。员工手上就算有期权也不会涨。相比智谱、MiniMax,以及一些其他大模型团队,要么估值暴涨,要么上市以后暴涨。那DeepSeek的员工肯定都留不住。”一位接近DeepSeek的资深从业者谈及在此节点融资的原因时说。
留住人才的成本,也是一笔不小的开支。
2025年,DeepSeek最大的竞争优势来自一支百余人的高学历的“天才”团队。几十位顶尖研究员,加上一位极具技术理想主义色彩的创始人梁文锋,创造出了DeepSeek-R1。
今年,一边是各互联网大厂持续高薪“挖”顶级AI研究员,另一边,市场对AI人才的需求激增,公开数据显示,算法岗位月薪的中位数普遍超过2.4万元,头部人才月薪超过5万元,AI人才的溢价持续扩大。
在此次大规模招聘的岗位中,除了全栈开发/算法、AI核心系统研发、运维、产品之外,值得关注的是,HR、法务、财务、采购、行政等职能部门也在扩招。
全方位“扩编”释放出的信号是,DeepSeek还在补齐作为一家科技公司的组织能力。
从“产品驱动”迈向“组织驱动”,这也是许多科技公司的必经之路——在组织逐步成熟、平台不断完善、人才激励机制建立之后,大规模的产品红利才开始释放。
完成500亿融资,一方面是留人需要,另一方面则为补全组织架构提供了基础条件,但在这个过程中,DeepSeek能否“轻盈转身”,在扩招后仍保持“小团队作战”精简高效和决策链的灵活敏捷?这是DeepSeek“下半场”要回答的第一个问题。
在6月25日发布招聘信息的33个岗位中,有些岗位值得关注,即IDC(Internet Data Center 互联网数据中心)数据中心团队,涉及基础设施建设。
早在4月中旬,DeepSeek就在内蒙古乌兰察布发布了首批数据中心岗位,包括数据中心高级运维工程师和数据中心高级交付经理。到了6月,DeepSeek又新增了“IDC设计规划工程师”岗位。
从数据中心运维、交付,再到设计规划,今年以来,DeepSeek的人才布局已经从模型延伸至算力基础设施建设。
图为 DeepSeek IDC数据中心团队招聘岗位信息
伴随着大模型进入规模化训练和推理阶段,AI模型公司的竞争即将、也必然进入“基础设施”的硬件竞赛,这推动DeepSeek不得不和硅谷最前沿的头部大模型公司一样,加入到自建算力集群的重资产“烧钱”游戏当中。
根据公开数据显示,美国科技巨头Alphabet、亚马逊、Meta和微软,预计今年将总共投资约6500亿美元来扩大人工智能相关基础设施。Anthropic、OpenAI也多次在公开披露的财务文件中强调,将持续加大算力基础设施投入。
例如,Anthropic预计仅数据中心容量租赁,每月就将向SpaceX支付约12.5亿美元,一年就是150亿美元,还不包括GPU采购、网络、运维等。
工信部信息通信经济专家委员会委员盘和林在此前采访中指出,当前AI投资热潮之下,大模型企业融资已是大势所趋。“不仅是DeepSeek,谷歌也融资800亿美元,行业已进入重资本阶段。”
为了不在算力重资本建设上掉队,DeepSeek必须在资金上“开源”,拿到融资,继而投入算力、数据中心等基础设施建设。
值得注意的是,DeepSeek建设算力基础设施,是在海外先进算力出口受限的情况下进行的,这意味着上述算力将由国产芯片驱动,而在DeepSeek V4发布时,DeepSeek就在官方页面和技术报告里提到国产算力的探索。
5月底,华为提出“韬(τ)定律”,试图通过器件、芯片、系统等全栈协同优化突破摩尔定律放缓带来的瓶颈;国产大模型也正加速适配国产算力,国产算力探索的目标是——“自主可控的AI基础设施”。
对于DeepSeek这样的基础模型公司来说,仅有资本和组织不足支持长期领先,关键是持续产出原创技术。
一位资深算力从业者亦强调,DeepSeek本轮大规模融资,就是为了给团队激励、留下核心人才,“只有足够的融资,才能训出好模型,才能奠定头部位置。”
论文是DeepSeek在新技术探索方面的一个重要缩影。
据不完全统计,近两年,DeepSeek公开发表了约27篇核心技术论文,研究方向覆盖 MoE(混合专家)、强化学习、代码大模型、数学推理、多模态等等,几乎对应了其每一代核心模型和关键技术突破。
就在6月27日,DeepSeek官方在GitHub上低调更新了一篇与“DSpark”新技术有关的论文。
论文中,DeepSeek提出全新的推理加速框架“DSpark”,在不改变模型能力的前提下,大幅提升了大模型推理速度和系统吞吐
和此前不同,这篇论文并非迭代了新模型,而是在原有DeepSeek-V4-Pro和DeepSeek-V4-Flash基础上增加了一个推测解码模块,重点在于工程落地层面的优化。
DeepSeek意图将DSpark部署在DeepSeek-V4线上服务系统、承接真实用户流量时,减少无效校验带来的算力浪费。
论文中提及,“在不改变底层模型架构的情况下,将生成速度提高了60-85%。”对于每天都要处理海量API请求的AI公司而言,算力成本每降低一点,利润空间就会增加一点。
据VentureBeat今年2月份的消息,模型训练的费用只会越来越高。Anthropic的CEO Dario Amodei预测,未来一代前沿模型的培训成本将达到50亿至100亿美元。
上述资深算力从业者表示,DeepSeek也将进入同样“烧钱”训练模型的阶段。
为了支持DeepSeek的模型训练迭代,融资是早晚的事。
更多的媒体解读道,在融资之后仅十几天便上线新论文,DeepSeek似乎在证明公司的核心节奏没有变,研发团队依旧保持着高频输出。
不论是上新模型还是建设数据中心,亦或是从“天才实验室”转变为商业化运营的AI公司,DeepSeek进化的尽头是AGI。
在2024年接受《暗涌Waves》采访时,梁文锋就明确表态:“我们做的就是AGI(通用人工智能)。语言大模型可能是通往AGI的必经之路。”
在免费阶段,用户对响应失败、对话中断、API限流等问题尚可容忍。一旦7月DeepSeek V4正式版上线后,用户对稳定性的要求也随之提高,问题若持续存在,将直接影响用户是否愿意将DeepSeek接入真实工作流和业务系统。
来到付费端、开发者生态和企业场景,DeepSeek的工程能力将面临更严格的考验,模型能否真正走向大规模应用,也是进入AGI时代必须跨越的一道槛。
当用户希望DeepSeek推动中国大模型降本增效时,它自己心里还算着一笔账:正处于AGI的关键时期,首要目的是留住人,其次是要持续训练模型、不断在技术层面迭代出新,数据中心的基础设施“仗”也不能输。
光靠梁文锋的量化私募基金幻方量化,还远远不够。
2026年,DeepSeek启动融资是必然的选择。正如DeepSeek于6月25日晚发布的招聘公告写道:
“当今人类正处于AGI的前夜。”
下一步,DeepSeek要面对的是更长期、更烧钱的AGI竞赛。能否像在“大模型”竞赛中出圈一样,继续在AGI的进程中“领跑”,这是DeepSeek“下半场”要回答的第二个问题。
本文来自微信公众号“腾讯科技”,作者:谢瑞瑞,编辑:徐青阳,36氪经授权发布。
发布时间:2026-07-01 14:13