失衡的乌托邦:Meta的开源AI路线是如何遭遇滑铁卢的

2025年10月底,Meta AI部门宣布裁员600个职位,甚至核心部门的研究总监,同时掌管AI业务的高管纷纷离职、被边缘化,就连图灵奖得主Yann LeCun也被认为自身难保。

图片来源:CNBC

一方面扎克伯格在用上亿美元的年薪挖AI人才,但同时又如此决绝的裁员,这样割裂的行为背后是因为什么?

于是我们采访了Meta的前FAIR研究总监AI科学家田渊栋、参与了Llama 3后训练的前Meta员工Gavin Wang、硅谷资深HR专家以及一些匿名人士,试图还原一下Meta的Llama开源路线到底发生了什么:

为什么Llama 3还让众人惊艳,而仅一年之后的Llama 4就如此拉胯?中间发生了什么?Meta的开源路线从一开始就注定是个错误吗?AI大模型激烈对战的当下,一个乌托邦式的AI研究实验室还能够存在吗?

01 FAIR与GenAI的诞生:Meta的AI十年布局与架构搭建

首先来看看Meta对AI布局的整个公司架构。

2013年年底,扎克伯格开始搭建Meta的AI团队。当时,谷歌收购了Geoffrey Hinton的DNN团队,将Hinton招入麾下,同一时间,Meta将Yann Lecun请来坐镇AI的发展。至此,图灵奖三巨头的两位开始步入商业科技来主导AI研发。

在扎克伯格邀请Yann LeCun加入Meta的时候,后者提过三个条件:

1.不从纽约搬走;

2.不会辞去在纽约大学的工作;

3.必须开展开放的研究,公开发布所做的所有工作,并将代码开源。

所以,一开始Meta的路线就是开源的。Yann LeCun进入Meta之后,开始着手前沿的AI研发,组建了Fundamental AI Research实验室,也就是大名鼎鼎的FAIR实验室,主导人工智能的前沿研究。

田渊栋

前Meta基础AI研究(FAIR)团队研究总监:

FAIR是负责前沿研究的,就是做一些现在目前看起来没有特别大的应用,但是新的想法、新的思路、新的算法、新的框架、新的模型架构。这样的探索之后可能会有一些大的突破,大概是这样的一个逻辑。

但是对于Meta来说,最终还是要看到AI在自身产品上的进展。于是和FAIR组平行设置了一个组叫“Generative AI”,简称“GenAI”组。

这个组里面分别有不同的功能团队,包括了Llama开源模型的研发,将AI能力运用到产品上的Meta AI团队,还有AI算力基建的数据中心团队,其它的还有一些小部门,比如说Search(搜索),Enterprise(企业服务),Video-gen(文生视频)模型等等。

GenAI和FAIR是平行关系,这像是一个天平,一边是前沿科研,一边是产品化。理想情况下,前沿研究能带来更好的产品力,而产品赚钱了能让管理层有更大的动力拨款给FAIR去做研发。

田渊栋

前Meta基础AI研究(FAIR)团队研究总监:

比如FAIR会提供一些很好的想法和工作给GenAI去用,让GenAI把这些想法和工作放进生产,然后在下一代模型中使用出来。

很多人的初心就是说想做一些不一样的东西,或者是与众不同的方向、工作。能不能真正地实现AGI(通用人工智能)?这其实是个比较大的问题。

陈茜

硅谷101联合创始人:

所以FAIR的目的是AGI,但是GenAI它的目的是怎么把AI放在Meta现有的产品中,让AI发生效应。

田渊栋

前Meta基础AI研究(FAIR)团队研究总监:

对,应该说主要一方面是Llama,Llama是一个很大的模型。还有就是怎么样把AI比较好地用在一些具体的应用上。

但是,让这样的天平始终保持平衡,是一个很理想化的乌托邦状态。而这个乌托邦状态的前提是,Meta的AI模型水平一直是要保持最领先的,或者说,至少是在开源赛道最领先,且不落后闭源模型太多的。

图片来源:Meta AI

陈茜

硅谷101联合创始人:

你觉得在FAIR最快乐的一段时光是什么时候?

田渊栋

前Meta基础AI研究(FAIR)团队研究总监:

我觉得从我入职FAIR之后一直到2022年,这段时间是很开心的。因为大语言模型来了之后,整个生态或者说研究者之间的关系发生了一些变化。因为大语言模型来了之后,算力成了很重要的一个因素。

因为算力是有限的,所以就会产生各种问题、各种矛盾。大家都要训练一个很大的模型,如果是这样的话,相互之间就开始有一些问题,比如说如果我卡多了,你卡就少了。因为卡不多就没办法训练出很好的模型,所以在2023年之后这段时间之内,状态肯定不会像以前那么好。

而Meta的AI天平是如何失衡的呢?我们可以从Llama的四代发布中,看到一些端倪和痕迹。

02 “开源之光”:Llama的昔日骄傲与滑铁卢?

之所以Meta给自家大语言模型取名“Llama”,据说是因为考虑到Large Language Model的缩写“LLM”不太好发音,所以就补上了元音字母。“Llama”朗朗上口也便于记忆传播。也正是这样,大语言模型命名自此才和“羊驼”扯上了关系。

Chapter 2.1 Llama 1:开源的“种子”

我们先来看看Llama 1,这也为Meta的大模型“开源”路线奠定了基础。

2023年2月24日,Meta发布Llama模型,主打“更小参数更好效果”(多规模:7B/13B/33B/65B),强调当时的13B模型可以在多项基准上超过175B参数的GPT-3。

而Llama在官宣之后的一周,权重在4chan上以种子形式被“泄露”,引发了AI社区对开源模型的广泛讨论,甚至还引发国会参议员致信质询Meta。

虽然有不少质疑的声音,但业界对Llama的“意外泄露”出人意料的支持,而这也被视为“大模型开源”的格局重塑,并且很快催生出了诸多的民间微调项目。

我们在这里稍微解释一下大模型的“开源”定义。其实Meta也不是完全的开源。Meta称之为“开放权重”(Open weights)。

在机器学习中,有三个部分:结构(architecture),权重(weights)和代码(code)。所谓“权重”,就是模型学习到的所有参数数值。模型训练完成后,所有参数会存成几个巨大的二进制文件。每个文件里保存着每一层神经网络的矩阵数值。而在推理时,模型代码会加载这些权重文件,用GPU进行矩阵运算生成文本。

所以“开放权重”就意味着向公众提供训练好的参数文件,外界可以本地加载、部署和微调,但还不是完全的“开源”,因为真正的开源意味着公开训练数据、代码和许可等等。但Meta并没有公开这些信息,甚至之后的Llama2、3、4代都仅仅是开放权重,只是在许可证的政策上有些松动。

虽然Llama属于“半开源”,但比起OpenAI,Anthropic和谷歌完全闭源、只通过API接口来提供模型能力服务的公司来说,已经算给开源社区带来非常旺盛的生命力了。

Chapter 2.2 Llama 2: 开放“可商用”

2023年7月28日,Meta联合微软发布了大模型Llama 2,包含7B、13B和70B参数的三种参数变体。

新一代模型的“开源”虽然也是“开放权重”,但对比Llama 1的不可商用、只能申请研究用途而言,Llama 2是一个免费可商用的版本,更放宽了许可证的权限,而Wired等杂志更是指出,Llama 2 让“开放路线”对抗封闭模型巨头成为现实。

而我们看到,Llama 2很快在开发者社区风靡起来,它的可得性显著放大了生态和AI开发。

之后,就到了2024年的Llama 3,这也是Llama系列最为辉煌的时刻。

Chapter 2.3 Llama 3系列: 逼近闭源阵营

步入Llama3的时代,Meta已经成为AI开源社区的顶流存在。2024年的4月到9月,Meta连发三个版本的模型迭代。

2024年4月18日,Meta发布8B、70B两个规格的Llama 3版本,称同等规模“显著超越Llama 2”,并将其作为Meta AI助手的底座之一。

之后的7月23日,Meta推出405B、70B、8B三档Llama 3.1模型,并宣称405B是“全球最强的开放可得基础模型”之一;同时登陆AWS Bedrock、IBM watsonx等平台。

仅两个月之后的2024年9月25日,Meta推出Llama 3.2,主打小而全的多模态,新增1B与3B轻量文本模型与1B与90B的视觉多模态模型,面向终端/边缘场景;AWS等平台同步接入,开源框架平台OLlama亦可本地运行。

我们采访到了Llama 3团队的Gavin Wang,他负责Llama 3的后训练工作,对我们表示当时整个Meta,GenAI团队是在以“光速”前进,真的有种“AI一天,人间一年”的感觉。

Gavin Wang

前Meta AI工程师,从事Llama 3后训练:

当时Llama3.1/3.2确实是有很多很好的进展,比如多模态是在这个阶段里面发布的,包括后面他们做Lightweight model(轻量化模型)1B/3B的。我觉得这时候产品化生态取得了很大进展,很多的社群都有支持,包括我有朋友在Llama Stack团队,他们就是专门支持整个Llama的生态在企业级或者说小企业级的落地。

Llama 3的强势出击,特别是450B版本被认为是在模型能力上对闭源阵营的逼近,也被认为将快速推动AI应用的落地。而对于Meta内部员工来说,特别是在Llama组的AI工程师们,这是一件非常让他们值得骄傲的项目。

Gavin Wang

前Meta AI工程师,从事Llama 3后训练:

当时的叙事是说,Meta是大厂里面唯一一个剩下开源的模型,而且还对整个开源生态很有贡献。当时我觉得很多人都会觉得,这不仅仅是在做一份工作,而是我们真的就是在支持整个AI的前沿的发展,你做的每一件事情都感觉非常有意义,我当时是非常自豪的感觉。我出去跟别人说,我是在做Llama 3的团队,一些创业公司的创始人他们都会说:非常感谢你的努力。感觉整个技术圈,尤其是AI创业圈,都在指望Llama。

Meta乘着东风,期望Llama 4的发布,能进一步的扩大自身在AI开发社区的影响力,保持“顶尖大模型中的唯一开源存在”。

扎克伯格在2025年1月底财报会议后发帖说,“我们对Llama 3的目标是使开源与封闭模型具有竞争力,而我们对Llama 4的目标是领先。”

然而,三个月之后的Llama 4发布,却是一场彻底的灾难和滑铁卢。

Chapter 2.4 Llama 4: 滑铁卢

2025年4月5日,Meta推出Llama 4的两个版本(Scout与Maverick),宣称多模态与长上下文能力大幅跃进,并在宣传中高调引用LMArena排行榜上的领先成绩:Maverick版本仅次于Gemini 2.5 Pro,与ChatGPT 4o和Grok 3 Pro并列第二。

然而很快,开发者社区的反馈并不正面,认为Llama 4的效果不及预期。市面上开始有流言质疑Meta在LMArena上冲到第二名的版本有作弊嫌疑,怀疑Llama 4给LMArena排名的是经过了优化的变体,而这个变体经过了对话强化的训练,存在误导LMArena、导致过拟合的现象。

虽然Meta高层迅速否认了作弊,但影响迅速发酵,一方面,媒体纷纷将此视为“用特调版本刷榜”的“诱饵换包”(bait-and-switch),行业对基准公信力与可复现性的讨论升温;另一方面,Meta更高端的Behemoth版本推迟发布,公关与节奏严重受挫。

截至目前,Behemoth还没有发布,Meta应该是放弃了。

接下来就是大家所知道的,扎克伯格开始孤注一掷的大手笔收购Scale AI,把Alexander Wang挖过来领导新的AI架构,之后用上亿美元的支票开始挖人,疯狂搅局硅谷AI人才市场。

再之后就是最近的新闻,Alex开始重组整个Meta的AI架构,裁掉600人。

但大家看看这个时间线,是不是还是觉得很割裂,在Llama 3和Llama 4的这一年中,发生了什么?怎么Llama 4一下子就不行了?这是不是也太快了。

我们通过复盘,也许找到了一些答案。还记得我们在前文提到,Meta内部的AI架构是一架天平吗?Llama 4失败的原因就是:这架天平失衡了。

03 失衡天平:前沿研究与商业化的路线之争

在Meta的AI架构中,FAIR和GenAI是并行的两个组,Yann Lecun管FAIR,但Yann LeCun很多时候沉浸在自己的研发中,有时候还在网上跟人,比如说马斯克对战,还经常说不看好LLM路线,让Meta很头疼。

于是,2023年2月,Meta高层把Meta AI的研究负责人Joelle Pineau调到FAIR,担任FAIR的全球负责人,与Yann LeCun两人一起领导FAIR。

图片来源:Bussiness Insider

而GenAI的负责人是Ahmad Al-Dahle,这个哥们儿之前在苹果工作了快17年,而扎克伯格把他挖过来的原因,就是想把AI和Meta的各种产品结合起来,包括元宇宙,智能眼镜的AI整合,以及聊天工具meta.ai等等。

而就在经历了Llama 2的成功,公司开始研发Llama 3的过程中,Meta高层越来越强调“要将AI用于自家产品”的属性。

于是我们看到,2024年1月,Meta的AI团队进行了一次重组,FAIR的两名负责人开始直接汇报给Meta的CPO(首席产品官)Chris Cox。

Gavin Wang

前Meta AI工程师,从事Llama 3后训练:

整个Llama 1 ~ 3算是一个时代,大家很疯狂地在卷scaling law(缩放法则),当时整个行业里都在追随基础模型的能力的提升。大家在探索基础模型、大语言模型本身的能力的边界。但是Meta的领导层, 像扎克伯格和CPO Chris Cox,他们其实很早就意识到大语言模型的能力能够落地,能真正为社会产生价值,他们肯定是从产品力上去出发的。

所以说当时Llama 2和Llama 3的阶段,整个GenAI的核心目标是让研究成果真正产品化、工程化。也因此就是在最高管理层层面,包括副总裁、高级总监的高层,是由一些之前更多的是产品背景和工程背景的人来领导的。

在Llama 3成功推出,Meta高层开始制定Llama 4的路线之际,所有的注意力都放在了与产品结合上,也就是多模态能力,因此忽视了对模型推理能力上的重视。

而就在Llama 3到Llama 4的这一年研发过程中,2024年9月12日,OpenAI推出了基于思维链的o1系列模型,之后的2024年12月,中国的deepseek开源模型横空出世,用MOE混合专家架构在保证推理能力的情况下大幅度降低了模型成本。

陈茜

硅谷101联合创始人:

你在被拉去救火Llama 4之前,手上在研究什么?

田渊栋

前Meta基础AI研究(FAIR)团队研究总监:

我们这边在做一些关于推理的一些研究。主要是关于思维链,包括思维链的形态和训练的方式做了一些研究。o1是去年9月份出来的,其实我们在o1出来之前,就注意到非常长的思维链会对整个模型的scaling law(缩放法则)产生影响。

图片来源:arxiv

其实FAIR组中,田渊栋等研究员已经在着手思维链的研究,但这样对推理能力的前沿探索并没有及时传达到Llama模型的工程上。

Gavin Wang

前Meta AI工程师,从事Llama 3后训练:

Llama 4规划的时候,就会感觉到这个地方可能领导层的方向有一些变化。我认为总体来说他们还是想要支持Meta本身重点去推的一些产品,就是Llama本身的生态,多模态肯定是其中的一个重点。但是DeepSeek在1月份的时候横空出世,它们的推理能力非常的强。

推理能力在当时也是讨论的其中一个方向,但是因为Meta本身的生态,它们更看重多模态,没有重点去做推理。但是当DeepSeek出现了以后,那时我实际上已经离开了Llama的团队,不过据说当时他们有在讨论说是不是要重新把推理的地方捡起来,但这个地方可能优先级上有一些冲突,加上时间也非常的有限,就导致大家加班加点地做了很多的尝试,非常得忙。我觉得DeepSeek的出现肯定是造成了公司里面资源还有优先级管理上的一些混乱。

还有一点,我觉得Llama 1~3整个模型的架构和组织的架构,是延续了一开始的设计。但是因为Llama 3的成功,大家就希望Llama 4能够更进一步,能够做一些更大的工程。那这个时候可能出现了一些问题,我的观察就是公司比较高层的,像副总裁、资深总监这个层面,他们很多人是比较传统的基础架构、计算机视觉背景,可能自然语言处理背景的都比较少。

所以可能他们技术层面对于AI原生技术或者是大语言模型这些东西就没有一个深度的理解和认识。真正懂行的,可能是下面具体做事的一些博士,尤其是我们非常骄傲的是,华人的博士都是技术非常扎实的。但是他们获得的话语权,或者说在公司内部的资源没有那么多。所以说可能不知什么缘故就造成一种外行管理内行的一些局面出现。

图片来源:DeepSeek

因为OpenAI的o1系列和DeepSeek的出现,让Meta在2025年年初乱了阵脚。于是,高层临时让FAIR的研究团队去支援Llama 4的研发,或者可以直接说是去“救火”,而这个“救火团队”就是田渊栋带队的。

田渊栋

前Meta基础AI研究(FAIR)团队研究总监:

我觉得现在很大的一个教训就是,做这样的项目不能让不懂的人来做整个的领导者或者做整个的规划。如果有些东西出了问题的话,应该是大家说:ok,我们不能在这个时候发布,我们再往后拖。应该是采用一种,我拖到什么时候结束能够正常运作才发布的阶段。而不能说把deadline先定好,不然的话有很多事情是做不好的。

我觉得我们组里面当时很多人非常累,比如说像我是在加州,因为我有几个团队成员在东部时区,他们晚上12点给我打电话,他们那边已经3点钟了,还在干活,所以非常的辛苦。为什么他们那么辛苦呢?是因为deadline压得很紧。比如说我们的deadline就是要计划在某一天要发布,项目管理就需要从后往前倒退,然后看2月底或者3月初一定要做什么事情、3月底要做什么事情。

但如果你在做这些事情的时候,你发现这个模型这方面不行,或者说数据有什么问题,在这种情况下,我觉得有一个很大的问题就是,你怎么样能够让大家因为你这句话停下来。就比如说,我说这个数据有问题,不行,我这个数据不能用,我们得换一个数据。那这样的话就多出事了,我们得把整个事情往后延一个星期、两个星期。但这个事情能不能做到是一个很大的问题。如果在很强的deadline压力之下,最后结果就是这事情做不了,或者说大家没有办法去提出异议,那这样的话最后的质量就会变得很差。这是一个比较大的问题。

陈茜

硅谷101联合创始人:

为什么Meta会有那么强的压力在deadline上面呢?因为开源模型,其实它已经是第一了。当然,DeepSeek在年初的时候出来,大家都没有意料的到。但是为什么它有那么强的deadline说我一定要在这个时候把这个东西推出来?

田渊栋

前Meta基础AI研究(FAIR)团队研究总监:

应该说有个上面高层定下的deadline,但这个我就不方便说了,可能能你要去问一下相关的人,懂的都懂。

图片来源:Meta

我们在这里基本上能有一些答案了,从Llama 3开始,“将AI产品化”这样的路线就已经制定,整个模型注重多模态和应用、忙于整合应用和业务,但却忽略了推理和更前沿的技术研发。这让天平另一边的FAIR团队不得不跨组来“救火”,就这样,天平失衡了。

田渊栋

前Meta基础AI研究(FAIR)团队研究总监:

但实际情况其实是因为前沿模型的竞争太激烈了,所以基本上很难真的去用FAIR这边的一些文章。虽然有些文章是被用到了,但是我们在交流的过程中还是会存在一些问题。我当时就是在FAIR的时候,我有时候Ping(发信息给)GenAI的人,他们都不理我,这是什么情况?但是真的我去了GenAI之后我会觉得,确实我也没法理他们(FAIR研究员们)。

因为太忙了,比如说我半小时不看手机,可能就有20条、30条的消息要去看,有很多的人要找,有很多的事情要决定。所以我也能理解了,在GenAI这样的环境下,很难有比较长期的思考过程。

而扎克伯格是如何修复这个失衡的天平呢?他直接空降了一个特种部队:由Alex Wang带队的TBD团队。

04 空降“新王”:28岁Alex Wang获“无限特权”

Meta的AI业务架构如今再一次重组之后,高层也经历了一系列的动荡。

Alex Wang带领几十位高薪聘请来的顶级研究员,单独成立了这个在Meta内部拥有无限特权和优先级别的特别小组TBD。TBD,FAIR和GenAI一起组成Meta Superintelligence Labs(MSL部门),直接汇报给Alex,而Alex直接汇报给扎克伯格。

这也意味着,FAIR的Yann LeCun如今也汇报给Alex,而Joelle Pineau此前被要求汇报给GenAI组的负责人Ahmad。

我们看到,Joelle已经在今年5月离职,去了Cohere做首席AI官;而Ahmad说实话已经很久没有什么声音了,也没有被任命负责任何重要的项目;而CPO Chris Cox也被Alex抢了风头,排除在了AI团队的直接领导者之外。

所以现在的架构就是,28岁的Alex一人独大的局面。

我们听到过Meta内部各种对Alex和他领导的这支极度有特权小组的不满,包括TBD团队里的人可以三年不用做绩效考评、可以不理不回其它任何VP的信息、Meta AI的所有paper都要给TBD里面的人去审核才能给发表。

要知道,TBD里面不少人比较年轻,这是让很多资深的研究员非常不满, 反正就是各种内部政治斗争感觉又要起来一波。

但不可否认的是,特权的等号后面是成绩。这个成绩对于扎克伯格来说,不仅仅是Make Llama Great Again(让Meta再次伟大),而是“Meta has to win”(Meta必须赢)

在这场AI竞赛中,目前的这场重组,也许对于扎克伯格来说是最后的一次,也是最重要的机会。而Alex在团队内部邮件中就写到他将做出的三个改变:

1.集中TBD和FAIR团队的核心基础研究力量;

2.提升产品和应用研发的融合、且继续以产品为模型聚焦点;

3.成立一个核心基建团队来支持研究押注。

Tom Zhang

硅谷资深人才专家:

第一条就是把基础研究、TBD Lab和FAIR更集中化,就让它两个更紧密的去结合。所以这回裁掉的一些研究人员,邮件上也说,可能他们的项目没有那么高的影响力。你再做一些前沿的研究,但和我们现在没有关系,因为很多前沿研究是高度抽象的,是从数学的角度,从很多理论的角度,它其实和工程的离得比较远。

第二个就是把产品和模型更紧密地结合,和Alex Wang一起进来的人,有一个就是GitHub的原来CEO。等于扎克伯格同时引进了两个高端人才,一个是Alex Wang,统一来说就是管模型的;一个GitHub前CEO Nat Friedman,他是偏产品的,因为产品才能给这个模型更好的反馈,在用的过程中进行飞轮效应。

第三条是组建一个统一的核心基础设施(Infra)团队,就把管卡的数据中心团队更集中化。过去很可能是很散的,好几个领导都在,你要卡你得来申请。现在卡这个事也是统一来管理。所以这个邮件写得还是挺清楚的。

而Alex能否撑得起扎克伯格的押注呢,也许很快我们就会有答案。

图片来源:Bussiness Insider

总结一下,Meta在Llama前三代都还是领先的开源模型,引领着开源派去对抗OpenAI和谷歌Gemini这样的闭源派。

然而,在Llama 3大获成功之后,公司高层急于将AI结合产品化,在规划路线的时候用“产品驱动研发”的思维,将Llama 4的升级聚焦在多模态等工程性能上,但却错失了思维链(CoT)等推理上的前沿技术时间优势。

虽然当时田渊栋等FAIR的AI科学家已经在研究CoT了,等DeepSeek引发轰动之后,又将FAIR的田渊栋团队临时救火优化Llama 4上的MoE架构,反而又中断了CoT和推理上的研发,导致AI前沿技术研究和产品工程这架天平彻底失衡。

在采访过程中,我脑中不止一次闪过历史上那些闪耀一时的前沿实验室:贝尔实验室、IBM Watson Research、HP实验室等等,但基本都因为无法平衡前沿科研和商业化而日益衰落,十多年历史的FAIR,曾经是一群理想化AI科学家的乌托邦之地,而如今又成了另一个商业化的牺牲品。

你认为这场由Llama 4失败引发的大重组,是Meta AI的最后机会吗?欢迎在评论区留言告诉我们。

本文来自微信公众号“硅谷101”,作者:陈茜,36氪经授权发布。

发布时间:2025-11-11 14:00