站在内容创作者与机器人的交界处:聊聊3D数字人的进化

在人工智能的浪潮里,3D数字人正在悄然改变着我们内容创作和互动的方式。你或许已经发现,数字人主播和虚拟偶像们,看起来越来越流畅自然了。这背后是一场数字人的技术革命:如今的3D数字人不再是那个表情略显僵硬、只能按预设脚本运行的“木偶”;它们能够根据指令,实时地生成丰富的语音、精准的表情,协调的肢体动作,并且成本变得可被接受。

进化的数字人,不仅活跃在当下的直播间和客服中心,未来更将在3A级游戏和影视工业领域大展拳脚。然而你可能不知道的是,3D数字人滥觞于机器人领域。在计算机图形学与机器人学之间,存在着一道打通虚拟与现实的“旋转门”,几十年来不断有学者穿越这道门走向另一端去寻求突破之道。

过去,研究者们用驱动机器人的方式,驱动虚拟世界中的数字人;如今,数字人所积累的经验,又反过来帮助机器人去理解物理世界的错综复杂。

本期《硅谷101》,主播泓君邀请了魔珐科技创始人兼CEO 柴金祥教授 。柴教授从2000年左右便在卡内基梅隆大学机器人研究所投身3D数字人研究,已经从事该领域二十余年。泓君与柴教授深入聊了3D数字人的前世今生,它取得了哪些突破性的进展,又面临着哪些挑战,以及数字人的数据和模型是如何加速具身智能进化的。

以下是这次对话内容的精选:

01 数字人:下一代内容生产者

泓君:前几天,硅谷大家都在关注Sora2,好像每个人都会拿它去做一段Demo,包括我们前几天刚刚开了《硅谷101》的科技大会,我们就生成了一段让Sam Altman帮我们去宣传我们大会的Sora2的视频。看起来他在屏幕里面的形象就是一个比较数字人的形象,这个对你们的业务会有影响吗?

柴金祥:我觉得Sora2相比Sora1,进步是蛮大的,Sora1还是以风景为主,Sora2主要的形态是以人为中心的,可以让视频里的人做各种各样的事情。我也大概用了一下,第一个感觉,视频生成现在还是10秒钟的时间,还是没有跳出被时间的限制文生视频。第二个点其实也特别重要,就是物理上的一致性,基本上大家看刷屏的时候很多效果其实还是蛮好的,但你真正自己做的时候还是有很多瑕疵。

泓君:问题太多了。它那个视频里面有皮卡丘跟一个唐老鸭在总统竞选的一段辩论,可以在原视频上改,我就说把这个辩论变成一个在《硅谷101》上关于AGI的辩论,我们活动的主题是“Alignment2025”,但你仔细去看的话,它后面的Alignment那个字就是错的,就开始乱码了。

柴金祥:对。创作者除了生成视频,还需要能修正错误、调整细节,这能力它还没有。更重要的是,它无法精细控制人的动作和表情。不过,Sora2第一次让人看到了用大模型驱动人物多样动作的可能性。

我们做的是3D数字人,如果最终目标是让人能交流、跳舞、娱乐,那大模型会是什么形态?训练数据又是什么?Sora2说它用所有视频作为训练数据。最近Genie3出来,是3D的生成,给你一种交互型的感觉是吧?但它不是人,它是关于场景相关的。

我们觉得,最终可能需要2D+3D的训练技术结合,我们希望生成的人没有10秒限制、没有瑕疵、物理准确、可控制、实时且成本低。所以我们除了3D训练数据,也开始结合大量视频数据来训练大模型,提升数字人的表达力。视频数据如果模型做得好,是有生成能力的。

图片来源:Sora2

泓君:我简单总结一下:Sora2是文生视频,你们是文生3D。这个3D它可以是在VR领域里面进行展示的,比如说我戴着一个VR头盔,我可以360度地去看到这个人。

柴金祥:是,就是2D和3D的区别。Sora2是文生2D视频。3D放在VR/AR里,就跟现实一样。3D还有一个好处,它能控制,就像人一样,你让它怎么动就怎么动。但2D在像素层面,要对它进行动作、表情的精准控制,会比较难。

泓君:我看到很多公司展厅屏幕上的数字人是你们做的,有一点我可能很难区分,假设我进到一个展厅,看到一个屏幕上的非常立体的数字人,它有动作、声音、表情,跟我看到Sam Altman在一个视频里的数字人,除了时长的区别,它在核心的技术上它的区别是什么呢?

柴金祥:第一个区别是,屏幕上这个数字人是人机交流的载体,人跟机器交流的时候,其实你是实时互动的,我们希望端对端延时一般要小于2秒或1.5秒,不能像生成视频等10分钟、5分钟。

第二个区别是,当你用文生视频去做的时候,手指是个特别难的事情,经常多一根或少一截,但如果是展厅里,数字人为你讲解产品,你肯定是不希望这个体验很差的,它的动作不能有瑕疵,物理上要准确,表情、动作要一致。

最后一个区别,把3D数字人部署在终端上,成本不能高。终端屏幕可能就一万人民币,如果生成视频交互了20分钟,即使它能实时做,一年放在那也得花很多钱,长期也负担不起。但从Sora2文生视频的角度来说,这个成本它是不能scale up的。

泓君:它的成本是多高?用你们的这个成本是多高?为什么成本之间会有这样的一个差距?

柴金祥:我不一定能给具体数字,但可以告诉你一个量级:与大模型做的语音合成相比,我们的成本可能是几十分之一。这里核心是2D和3D的区别。3D描述人的动作表情,只需要几百个参数,人的肌肉可能就是大几百块,你只要去控制一些肌肉就可以了。下一步是用3D渲染把3D内容变成视频,还有3D解算,包括头发、衣服的物理解算。如果用AI做渲染和解算,成本就主要是生成这几百个参数的成本,和大模型生成Token一样,所以它的成本就非常非常低。文生视频没有结构化信息,全是像素,推理和生产成本就会非常非常高。

泓君:所以你们能把成本降下来,是因为有一个自己的端模型,可以这样理解吗?

柴金祥:是的,我们有一个把文本变成3D多模态表达能力的模型。从文本生成语音、表情、动作、手势的参数,传到终端屏幕上,我们用AI渲染和解算,把它变成视频。AI渲染对终端算力要求极低,现在用国内几百块钱的芯片,比如瑞芯微的RK3566,我们在端上就可以跑了。

泓君:比如说它要跟人做实时互动跟问答,这种还是在端模型上,还是说你后面除了你自己的这个端模型,在表达的内容上你会去接大模型?

柴金祥:好问题。人和数字人交流需要两个模型:一个像ChatGPT的多模态到文本模型,现在你ChatGPT的话,你可以输入声音、图片,它最后输出文字。

另一个是从文本到3D多模态的模型,我们做的是文字到3D多模态输出,输出语音、姿态、动作、表情、手势,让生成的数字人更像真人交互,

我们有自己垂域的大模型,也可以接国内千问、DeepSeek、豆包等模型,形成端对端的人与数字人像真人一样的交流体验。

泓君:所以你们从多模态到文本可以利用大模型,从文本到多模态是自己的端模型。

图片来源:魔珐星云-具身智能数字人开放平台

柴金祥:我们叫它“文生3D多模态大模型”。

泓君:这已经是一个产品“星云平台”,可以发布了吗?

柴金祥:是的,我们10月发布,现在在测试。有几百个B端企业客户在测试,有的已付费。我们预计两周后发布我们这个文生3D多模态模型。因为我们自己在做的过程做了很长很长时间,从我20多年前读研开始做,花了很多精力。我们希望大家不要重复造轮子,能够把能力提供给所有开发者,集成到他们的应用中去。

泓君:了解。我觉得很有意思的一点就是,随着星云平台发布,你们从3D数字人公司变成了3D数字人平台公司,我这样理解是对的吗?

柴金祥:差不多,对,是的。

泓君:之前在NVIDIA发布会上,黄仁勋很自豪地说“你看到的我不是真的我”,他坐在一个壁炉前,是一个虚拟3D数字人在跟大家介绍,渲染得非常非常真实。他经常用他自己的虚拟人去讲他们的显卡性能有多强大,他那个成本大概有多少?

柴金祥:这个成本蛮高的。他做的其实还是视频输出,如果造一个老黄这样的虚拟人,需要研发团队配合美术团队,在美国找顶尖的美术团队做,成本大概10万美金左右,做到发布会那种逼真效果。

这还只是造出这个人,做视频可能要按秒算成本。这属于专业级内容生产,还没到人人可用的阶段。

图片来源:NVIDIA Blog

泓君:对,每次去游戏展会感受明显,大家怎么去造那个3D数字人。以前造3D数字人,是让演员穿动作捕捉服,用环形摄像机拍每个部位,再建模,一步一步地把它还原出来。这是好莱坞或游戏公司常用的方式吧?

柴金祥:对,专业级造人包括3A游戏公司和好莱坞,比如Avatar,或老黄的数字人。整体来说它是两部分的东西。

第一部分是造人,一般叫扫描,用很多相机,你坐在那,做各种表情,把人的几何形状和表面纹理重建出来,包括肌肉,学术上叫建模和绑定。

第二是让它动起来,穿动捕服,用相机捕捉动作,驱动刚才造的那个人,用渲染引擎输出视频。

整个过程从建模绑定到动画再到输出视频,都非常昂贵。

泓君:这是大模型之前,好莱坞和游戏公司常用的方式。现在有了模型,这套方式还是主流吗?还是说他们其实也在探索能不能用3D直接去生成人?

柴金祥:这问题特别好。3D内容的AI化取决于两件事:高质量数据,和AI算法能否对3D内容做大模型。

咱们今天看到了,所有的影视动画和游戏公司,擅长做内容,把美术和3D模型做得很逼真,但绝大部分AI能力缺乏,因为他们和互联网、科技公司是两条线,交叉很少。他们当然想拥抱AI,但能力欠缺。

AI公司算法强,但其实是没有数据的。3D内容必须先有大量高质量3D数据才能做大模型,这是他们的目标,但现在两个行业没有交叉。

泓君:大模型公司缺好莱坞的数据,好莱坞制作公司缺AI算法,可以这样理解吗?

柴金祥:是,基本是这样。

泓君:但我看也有公司开始尝试。你们在AI浪潮之前,做数字人和积累数据也很久了吧?

柴金祥:是的,我们2018年成立,最初为B端公司,如游戏、影视、动画、或做3D虚拟偶像的公司,提供3D内容制作,用AI+美术一起来提升效率和质量。在这个过程中当然AI的能力也在提升,但大家都要突破的点是3D内容的高质量数据。没有数据,AI算法再厉害也没法干。

泓君:从2018年到2025年,你们大概积累了多少数据?可以透露吗?

柴金祥:拿动画数据来说,前面我们为企业服务,后来我们自己来做了些动画数据。现在3D高质量动画数据,我们有1000多个小时。这个数据可能跟视频的数据或者文本的数据来讲是小的,但如果考虑到成本,高质量的人脸动画、手势、表情等动画数据,一秒钟成本至少1000人民币左右。在国内成本高是一方面,另外你还得找到团队有非常强的能力把质量做得这么高,所以这个数据量是很难在短时间内积累起来的。

泓君:很有意思,所以数据是你能训练成这样的一个模型的一个核心要素。

柴金祥:我觉得数据是最核心的。如果没有数据,其他任何研发都没法做。除了刚才讲到的3D数据,我们也有其他的视频数据。这些是纯粹的视频数据,比如有人在走路也好,有人在跟人交流也好,它没有3D信息,但我们开始把这两者融合起来去做模型的训练。

02 虚实之间诞生的“双生学科”

泓君:你当初为什么会选择进入3D数字人这个领域?

柴金祥:我2000年去卡内基梅隆大学(CMU)读博士,在机器人研究所做的就是这个方向。我的博士论文就是关于如何创建一个可交互的3D数字人,以及如何用AI去做动画。我们团队应该是世界上最早用AI做动画的,因为也刚凑巧,2000年左右运动捕捉技术出现了,有了动画数据就可以做AI了。从那时起,我就专注于3D动画和数字人。2006年毕业去德州农工大学(Texas A&M)当教授,也一直做这个方向。那时动画研究属于图形学领域,是专门为影视动画公司游戏公司这个行业服务的。那时候我们发表了很多论文,全是关于3D数字人跟3D动画相关的。到2018年创业,我也继续做这件事,所以我在这个领域坚持了二十多年了。

泓君:我知道您的博士导师是杰西卡·霍奇斯(Jessica Hodgins),她主要研究人形机器人和3D数字动画。而且她的博士生导师是马克·雷伯特(Marc Raibert),是波士顿动力(Boston Dynamic)的创始人,现在最有名的机器人公司,也是特别早的一家机器人公司。所以看起来整个的3D生成它最开始的应用就是在好莱坞领域的。

柴金祥:我导师杰西卡·霍奇斯,她也是卡内基梅隆大学1989年博士毕业,她在读博时是做机器人的。当时的人形机器人只有“单脚”,因为双足平衡太难了。她那时候是用物理运动控制动力学的方式,控制机器人走跑跳。

她毕业后,很奇怪地,进到的方向是图形学和动画领域,她的想法是:既然能在现实世界控制机器人运动,是否能用同样方法驱动虚拟世界的3D数字人?

她是全世界第一个用物理运动控制方法做数字人动画的学者。她在佐治亚理工学院(Georgia Tech)做教授,基于物理的仿真跟控制做动画,然后2000年她回到CMU任教,2000年动画数据慢慢有了刚才讲的运动捕捉的出现。我就是她在卡梅带的最早的博士。我们是那时候是最早用AI做动画的。后来大家发觉得,这个动画用AI做挺好的,反过来是不是还能去做Robotics这个行业?

现在大家可能知道的很多做Robotics做很厉害的人,其实以前都是做动画的。比如PI(Physical Intelligence)联合创始人、伯克利教授Sergey Levine,但你肯定都不知道,他是在斯坦福拿的博士学位,并且他是用物理的方式,用运动控制动力学的方式来做动画的。他毕业了以后说,我这个能做动画,我也能做机器人,他后来当教授的时候就是开始做机器人。

泓君:难怪PI他们的核心思路是解决机器人的“大脑”问题,就是软件层的问题,他就是希望通过模型层来指挥机器人,我觉得这个跟他最开始不是从硬件研究开始的,而是用机器人去做动画,听起来是一脉相承的。

图片来源:PI

柴金祥:的确是的。再举一个例子,我还有一个好朋友Karen Liu,她现在在斯坦福当教授,以前是在佐治亚理工学院(Georgia Tech)当教授,她同时做Animation和Robotics。

我们那批做动画的人,后来很多都转向机器人领域,因为这两个领域高度相通——都是驱动“人”,一个在虚拟世界,一个在物理世界。动画相对更容易入手,因为机器人是有本体的,你搭个硬件就老半天。另外现实世界受很多限制,比如重力、房间限制、机器人硬件限制。动画实际上没有这些限制。所以那时候很多做物理的人开始做动画。

动画这方面也分成几派,一派用物理方法做,Jessica肯定是其中之一。还有CMU的Michiel van de Panne,他是我博士委员会成员,一直做Controller、运动控制。那时候做动画的中心也在卡内基梅隆大学。Karen Liu的导师Zoran Popović也是卡梅毕业的。当时做动画的学者很少,国内基本没人做,欧洲也没人,主要集中在美国两三个研究组。

后来动画有个大飞跃是从2000年,运动捕捉有了数据后,大家慢慢开始用AI做。那时比较早的,现在叫强化学习,我记得最早的动画论文是2004年还是2005年就用强化学习做动画。虚拟世界与实际世界的底层运动控制逻辑非常相似,都属于“小脑”范畴的动作规划与运动控制。如今新兴的VLA模型则更偏向“大脑”层面。

泓君:很有意思。我们讨论好莱坞技术时,常有听众问为什么科技节目关注电影工业。其实好莱坞一直是推动技术发展的重要力量,许多AI技术最早都应用于电影制作。你们有没有想过,把你们的3D数字人产品用于好莱坞造人?比如用生成式技术让静态演员动起来,这可能对传统制作方式形成“降维打击”。

柴金祥:这里面涉及几个关键点:质量、成本和应用场景。好莱坞质量可能最高的,再往下是3A级游戏,再往下是生活中一些交互比较简单的场景。如果你要做好莱坞方向,它的高保真、质量可能特别重要,他们可以等100个小时、200个小时,花更多钱等你的高质量。但在实时交互里,可能等不了那么多时间,要马上看到结果能够交互,质量上不一定要像好莱坞那么高。

泓君:但是可以做好莱坞IP的衍生。

柴金祥:对,衍生品肯定可以,但需要更高质量的3D数据来做AI大模型。这块在我们自己的行进路径上,有先后顺序,对我们自己来说,可能先运用到日常生活中,比如交互、服务、陪伴,再到游戏,再到好莱坞。因为难度来说,好莱坞如果要做到那个水平,难度很高很高,质量要很高,能生产这种高质量数据的人,全世界可能就没几个。

03 AI渲染结算带来的成本革命

泓君:问一个稍稍敏感的问题,你可以选择不答。你们现在把API接口开放出去,肯定有基础接入成本。你觉得这个模式能赚钱吗?

柴金祥:这肯定能。因为在正式发布平台之前,我们已经有了B端客户。在国内做AI公司,商业上的账必须算得过来,除非你是字节、阿里、腾讯那样的大厂。所以这里面有一个核心点,也是我们过去半年最大的突破。半年前我们的交互能力和API就做好了,但那时成本非常高。当时服务一个数字人需要一张显卡,成本差不多两三万。很多B端客户来问,一听到这个价格就不用了。

图片来源:魔珐科技

泓君:这个成本是怎么降下来的?

柴金祥:因为我们是3D内容,所有影视动画公司、游戏公司都逃不开一点——必须要有渲染引擎和解算引擎。

泓君:这个我太懂了,我们做视频,渲染真的太耗时间了。

柴金祥:对。如果要支持3D内容实时交互,每一路都需要一张显卡负责渲染和解算。我们当时用了可能最好的Unreal引擎,但成本就摆在那里。我们一直在想,如果不解决这张显卡的成本问题,谈应用落地根本不可能,无论是展厅大屏、手机还是平板上都用不起。

我原本觉得这个问题很难解决,但技术有时很奇妙,我们突然想到了一个方法。很幸运地,我们用AI技术完成了渲染和解算,不再需要传统的渲染引擎和昂贵的显卡。现在在非常便宜的终端芯片上,一两百、两三百块钱的,就能跑起来。

泓君:所以你们用端到端的AI模型,解决了渲染问题。

柴金祥:渲染只是其中一部分。完整流程分两步:第一步是用模型从文本生成语音和3D表情、动作的参数;第二步是把这些参数通过AI渲染和解算转换成实时视频。这样整体成本比语音生成还要低。

泓君:如果你们真能做到大幅降低渲染成本,这次的生成式AI技术会对Unreal这样的游戏引擎公司造成冲击吗?对NVIDIA可能就是一个左手跟右手的关系。

柴金祥:对Unreal不一定是好事,我认为对游戏公司来说更多是机会。现在3A级游戏都需要云端有显卡,或者手机上得有比较强的算力,不然玩起来会发烫。如果将来能用AI方式解决渲染和解算,不需要引擎和显卡就能玩游戏,那游戏就能无处不在。或者将来真正实现元宇宙时,虚拟世界的参与成本也许会变得很低很低。

泓君:现在用AI方式解决渲染问题,质量能达到传统游戏引擎的水平吗?大概到了一个什么样的进度位?

柴金祥:在我们这个特定应用场景下,质量基本一样。因为我们的训练数据就是用最高质量的游戏引擎渲染的,AI模型是在大量数据基础上逼近原来的效果。我们做过并列对比(Side-by-Side Comparison),左边是游戏引擎渲染,右边是AI渲染,没有一个人能看出左右之间的区别。

图片来源:Unreal

泓君:这非常颠覆。如果我们综合评估你们模型的能力,你觉得最强的一点是什么?比如现在看2D视频渲染,最大的痛点可能是口型对不上、眼神空洞,这种虚假感。你们在将3D数字人应用到不同行业时,遇到的最大痛点是什么?怎么解决的?

柴金祥:这个问题很好。我们收到的客户反馈主要集中在三个方面。第一是质量,包括语音、动作、表情、唇形是否自然逼真?是不是像真人一样?第二是延时,我跟它交互聊天时,不能一句话等5秒钟才回应,那我肯定没有这个耐心了;第三是客户非常关心的成本,如果太贵,即使体验好客户也不愿意投入。

质量、延迟、成本——这是我们规模化落地要翻越的“三座大山”。还有个关键点是让数字人支持多终端——大屏、小屏、手机APP,支持并发,这涉及不同操作系统、不同芯片算力。

我们解决质量和延时问题,主要靠大模型提升能力。质量方面当然训练数据最重要——如果3D人的质量很差,根本做不好。另外就是大模型本身的能力:能否通过文本生成语音、表情动作和匹配的唇形?能否从文本中提取情绪(比如笑或打招呼)自动生成关键意图?TTS语音生成是否也有情绪的?这些都关系到如何让大模型产生高质量输出。

04 加速具身智能突破泛化

泓君:我们刚刚聊了很多AI技术如何应用于虚拟世界。那反过来,你们现在训练的模型能操控机器人吗?你们试过吗? 

柴金祥:我们试过。3D数字人和3D动画的一个优势就是能够驱动机器人。比如一个3D数字人能跟你交流,听懂你的问题,生成相应的语音、动作、表情和姿态。对机器人来说,我们可以用同样的技术驱动它,让机器人实现实时语音、动作和手势。只是现在的机器人没有脸部肌肉,所以表现不出表情。

现在的机器人更像是蓝领工人。如果将来要做陪伴型机器人,或者做白领工作,比如销售、老师,可能就需要表情了。首先我们要知道机器人在交流时,手势该怎么动?表情该怎么变化?姿态该如何调整?下一步就是通过模仿学习,像NVIDIA的方法那样,通过仿真实现直接驱动和交流。

3D数字人驱动机器人 图片来源:魔珐科技

泓君:太有意思了。在实际应用中,你们将模型数据接到机器人上,觉得对哪部分提升最大?机器人没有表情,但手势可以动,你们能同时驱动手和脚吗?还是只能驱动上半身?

柴金祥:我们可以同时驱动手和脚。告诉你个有意思的事,在国内合作中,我们生成的动作数据包含脸部、手部和腿部的完整动作。

其实现在很多机器人公司在平衡性方面还不够完善,即使我们通过API提供了动作数据,他们也需要结合强化学习和仿真来实现。如果在这方面做得特别好的,可能也能够驱动起来。上身其实有很多动作,有一定的泛化性。

这个事情其实我觉得这没有那么难,就像我们爬楼梯一样,我的动作能够通过我们的能力生产出来,然后在仿真环境中加上强化学习,让它复制这些动作,一点问题都没有。

泓君:所以机器人的平衡问题在于,我们收集的3D数据只是动作姿态,没有力的反馈。一旦加入力的因素,就会出现平衡问题、摔跤问题。

柴金祥:我觉得你好专业,这里有两个核心点:驱动机器人需要运动学(Kinematics)和动力学(Dynamics)。第一步是运动学,比如要抓杯子,需要知道手的pose是什么,该怎么动去抓住它。第二步是动力学,解决需要用多少力、按什么路径去抓取的问题。我们先做运动学,也就是运动规划,这两者可以结合起来。

泓君:所以我理解其实机器人公司寻求合作时,两者都需要。如果从零开始做机器人公司,最缺的就是数据,而你们有数据的模型就已经训练好了。

柴金祥:是的。因为我们聚焦于交互,下一步我们今年会发布一个3D动作大模型。比如你告诉它“往前走五步,趴下再爬起来跑”,它就能自动生成3D动作数据。这些数据可以用来训练机器人,有了这样的动作大模型,甚至不需要动作捕捉,因为捕捉也是为了获取类似数据。

泓君:波士顿动力的机器人爬楼梯、旋转、搬箱子已经很成熟了。但这是在大模型出现之前,他们研发了很多年,用了各种方法。你现在用AI模型驱动爬楼梯动作,这两者技术路径是完全不同还是相似?

图片来源:Boston Dynamics

柴金祥:你提到一个有意思的点,波士顿动力以前能爬楼梯,但泛化能力不强。比如你给它不同高度的楼梯,它不一定每种楼梯都能爬好。他们展示demo时总是用同一个楼梯。

这就是泛化性的重要性。今天做人形机器人都要面对这个问题:生成数据后,能否处理数据之外的情况?比如爬楼梯,每个楼梯高度、层数、摩擦系数都不同,这些都是一些要泛化的参数。

那今天你有没有能力,给任何一个楼梯都能爬得稳?另外能否控制爬快一点,或爬慢一点?这仍然是个难题,根源还是数据。我们要做的核心就是在虚拟世界中,通过3D动画大模型生产出动画的数据,让它爬楼梯,让它见过所有情况。机器人动作的泛化性和数字人动作的泛化性,其实这两件事是一样的。

泓君:你觉得用AI做机器人经历了哪些变迁?就像你说的,最早可能没人想到用AI做机器人,后来开始加入强化学习。

柴金祥:最早的时候,AI机器人这个方向很难很难,尤其是人形机器人,我们叫Biped,最难的问题就是双足平衡。另一个难题是抓取。那个时候做人形机器人最有一段时间日本很火,比如本田的ASIMO。工程师要调整走路参数,你都不知道后面有多少工程师在调这个参数。这些参数还不稳定,把地面稍微改一改,它就可能跌倒了。那时AI和学习的方法用得不多,主要做控制器。

泓君:所以早期机器人发展主要关注控制,为了让机器人不跌倒。

柴金祥:如果能走,不跌倒,就已经很了不起了。后来大家觉得光这样走不行,你能不能有一定的泛化能力?在不同平面、不同表面,以不同速度行走。如果不用AI方法,这几乎不可能实现。

ASIMO告别演出 图片来源:Honda

泓君:你觉得现在的机器人相比20年前进化了多少?

柴金祥:我的进化还是蛮大的。以前让双足机器人走跑跳,觉得好难好难,但现在看国内很多人形机器人公司,运动会上拿遥控器控制,大部分走跑问题都解决了。这在20年前基本不可能,balance太难了。

泓君:但这是通过远程操控实现的。

柴金祥:即使远程操控,还是要解决动力学控制的问题。我觉得如果有视觉语言动作大模型,就不需要那个遥控器了。但用小脑控制这个事情,让它走,不跌倒,仍然很难。现在的进步在于数据、强化学习、仿真环境,像NVIDIA。技术进步后,能力开放出来了,大家都能在仿真环境里做,你就发现其实没那么的难了。

泓君:机器人走路不摔倒,是现在机器人公司的普遍水平,还是只有头部公司能做到?

柴金祥:对稍好的团队应该没问题。但关键点,就是你的泛化能力有多强?在日常训练的特定场景中不摔倒,如果在新场景搞不定,还是会摔倒。

泓君:那你觉得世界上有多少公司能在部分场景实现机器人不摔倒?

柴金祥:如果完全不摔倒,在新的应用场景其实蛮难的,我不知道现在有没有公司能做到很强的泛化能力和鲁棒性。如果有,我肯定要学习一下的。就拿爬楼梯来说,如果设置没见过的楼梯情况,我不相信现在世界上有任何一个人形机器人公司能做到。

还有个问题是抓取,早期用人形手抓取的研究不多,机器人整个业界多用吸盘来吸。但现在很多人研究灵巧手,让机器人一样用筷子夹东西,这非常难,需要大脑加小脑配合。大脑要先识别物体和抓取方式,小脑控制筷子夹取。我认为现在看到的都是demo,在特定应用场景下可能有些泛化性,但再扩展就很难。

泓君:我们10月5日的活动您也去了,现场有机器人开可乐。彩排时我放了瓶可乐,他们说要把拉环对准手指方向,否则那个机器人的手的灵活度还很难去把可乐转一个方向打开。

柴金祥:这还是在特定布置好的环境里,更不用说进入家庭后各种复杂情况。大家现在看到VLA模型可能解决这个问题,但能否100%解决,其实也没人知道。如果能,需要多少数据才能达到足够的泛化能力和鲁棒性?大家相信扩展定律(Scaling Laws),相信大模型总有一天能解决,但这里面的挑战是很大很大。

泓君:从你的角度看,现在世界上最好的机器人公司是哪家?为什么?

柴金祥:做机器人有不同的流派:有做本体的、做硬件的、做小脑的、做大脑的。我觉得很难说谁最好,因为“好”有不同的定义。是在研究上有突破,还是已经落地商用?也许某条路看起来很有希望,但最后发现是死路,暂时的领先不一定是最终领先。国内也有不同流派,比如宇树做机器人本体加小脑,它不做大脑。

泓君:大脑指什么?

柴金祥:大脑是处理VLA、叠衣服这类任务。小脑是处理爬楼梯、跳舞、跑步等。我觉得目前还没看到真正的曙光,可能我比较悲观。就像其他领域,VR/AR、自动驾驶都有起起落落,AI领域也会这样。这是机器人第一波浪潮,长期前景光明,但短期挑战很多。

泓君:你觉得机器人模型达到GPT-3时刻需要多久?

柴金祥:我没有那么强的认知。我觉得今天的数据要泛化能力,还需要很长一段时间。我看到的情况还无法清晰判断是2年还是3年,但我觉得10年内有希望解决。

泓君:所以你们公司没有直接切入机器人赛道,而是选择3D和机器人的交叉领域。

柴金祥:如果让3D数字人在数字世界、在VR空间或屏幕上与人交流,能够抓取、走路、爬楼梯,在数字世界里已经很有用,它已经可以有实际应用和商业落地了。

反过来,做这些对机器人也很有价值。因为在小脑控制方面,你需要先知道怎么动,再用强化学习决定用多少力。从研究角度,机器人是个好方向,有太多可探索的,但从商业化角度,我自己觉得其实挑战很多。如果真要商业化落地,人形机器人在白领领域可能比蓝领更快。

图片来源:宇树

泓君:你提到数字世界也会涉及力的反馈,比如好莱坞动画里面,我们把一个苹果、一个南瓜甩出,去变成酱,怎么炸开?

柴金祥:那个就是物理。还比如说,你是一个数字人或3D的角色,从二层楼跳到一层楼,你跳下去的时候,跟地面的反馈和滚动必须符合物理。我们的大模型生成动画后,它本身就可以用物理方式在虚拟世界中仿真它。同样的方式,也可以用强化学习的方式去生成这个控制器,我可以在实际世界中这么做,因为这个逻辑是相通的。

泓君:但我有个问题。如果我们收集动画世界的数据来学习,我知道一个人从楼梯摔下后怎么弹、怎么滚的,只是看到现象并用这些数据训练大模型,能反馈,能模拟,但我们还是不知道力是多少。

就是我们说Scaling跟这个所有的大模型,都是黑盒模型。但是我们再把这个场景拉回到现实,我们要让机器人砸到或拿到一个东西,这个力的大小,我不知道需要通过反复调控计算得出,所以需要力的数据。其实人在现实生活中举杯子也不需要计算力,靠经验习惯和感知就好了。

我的总体意思就是,过去机器人研究包括力学反馈,都是用白盒方法,但现在模型用黑盒和一套更加经验主义的方法去做。

柴金祥:这就是为什么在泛化到现实世界时挑战很大,因为泛化涉及的因素太多,整个的过程中你要学力的控制的函数。

泓君:以前是要自己计算吗?

柴金祥:对,现在用强化学习,只要有足够多的数据跟它reward,它就能慢慢能够做。但问题是,我说的抓杯子只是个小例子,这个世界上有多少种情况?所以我希望将来有一个基座大模型,有足够多数据后,在特定场景下我能去调优这个模型,把它慢慢做好。

泓君:我听下来觉得,机器人领域这波最大进展是研究方式从白盒模型的研究,变成了黑盒模型的研究。从必须知道每个细节的受力点,靠计算和细节调配的研究,变成了端到端的模型,我们不知道内部是怎么运作的,但它可以工作。

柴金祥:是的,这条路确实打开了新局面。以前的时候,那套东西更多是显式的,那种方法肯定不能规模化,所以我们觉得做机器人太难了,怎么做也没有希望的那种感觉。

但是今天我作为一个外行,我觉得虽然很难,但长期来看是有希望的。这套方法在大语言模型和其他领域已经展示了能力。如果在机器人这个方向上,如果你有足够多数据,是有可能解决这个问题的,但中间会不会遇到意想不到的问题和低谷,我不知道。

泓君:看起来现在是刚找到一条新的路的那个兴奋感的时候,但结果能否收敛?能否持续看到效果?这中间肯定会有起起落落。

柴金祥:是的。

本文来自微信公众号“硅谷101”,采访:泓君;图文:朱婕,36氪经授权发布。

发布时间:2025-10-29 20:00