豆包上车2.0:用一个AI大脑,联动整车

去年,字节跳动凭借其深度定制的“豆包手机”引发了手机行业震动。现在,豆包手机助手的产品范式也开始扩散到汽车领域,“豆包汽车”即将浮出水面。 

在北京车展开幕首日,字节旗下火山引擎发布了基于Agentic AI架构的新一代汽车AI解决方案,包含AI座舱套件方案、豆包座舱助手方案两大解决方案。

前者的AI座舱全栈套件,是一套全栈能力方案,车企可以灵活选用,而后者所指的豆包座舱助手方案,则正是字节在全力打造的座舱交互杀手级产品,其是更完整的产品级交付,并与豆包APP互联互通、能力同步进化,将在今年年内量产上车。

从语音交互体验上,豆包座舱助手将让车内语音助手摆脱过往一问一答的指令式交互,转变为对模糊自然语言的理解,并拆解成相应指令,执行车控操作。

据介绍,豆包座舱助手还会实现全双工对话能力,即人车可以实时同频交流,想说就说、随时可打断,而且免唤醒。

这还不是全部,在功能上,不只是让语音助手不再简单做调节温度、播放音乐等车控,而是覆盖开车、路线规划、娱乐互动等整个出行服务。例如,直接对豆包座舱助手说,“停到离入口最近的车位”,系统将调动辅助驾驶系统,自动泊车到相应车位。

此外,豆包座舱助手还可以承担“兜风导游”的角色,自动识别沿途美景,主动推荐观景路线,并自动减速、打开车窗,例如行车途中提示“右转可经过樱花大道,绕行多4分钟”,乘客同意后,自动减速并开启车窗。

多位行业人士向36氪透露,火山引擎内部已通过组建跨部门专项组的形式推进项目落地,“预计在今年下半年落地完整的豆包座舱助手能力”。

需要明确的是,字节此举并非投身造车,而是与车企深度共创,落地代际跨越的座舱交互体验,实现真正的全链路端到端的AI。

AI大模型能力进入汽车座舱的趋势最早来自特斯拉。自马斯克将xAI研发的Grok大模型搬上车端后,其在自然语言交互体验上,首先实现了代际提升,同时对语言的意图理解、个性化与记忆能力等都有明显提升,还可以结合自然语言指令自动规划路线、选择POI(兴趣点)等。

据36氪了解,今年CES期间,一位头部车企董事长看到员工在现场体验特斯拉Grok的视频后深受触动,立刻拍板今年要在车端部署大模型。内部团队随即被拉起,只用两个月就做出第一个版本。

“Grok+FSD的组合”,或者说大模型进入座舱,正在重重刺激车企神经。毕竟智驾血拼多年后,体验已经接近成熟甚至同质化,而座舱交互则一直相对沉寂,大模型登陆座舱,串联起交互、车控和服务的想象空间再次被唤醒。

“车企几乎都在布局座舱智能体。”行业人士透露,而今年北京车展首日,吉利、理想等大量车企都亮相了相应的产品。

汽车座舱智能体的技术加速点出现在2024年底。随着ChatGPT推动的S2S(Speech-to-Speech,端到端语音)推出,语音交互延迟被大幅压缩,为座舱实时自然对话提供了基础,也为汽车行业探索座舱交互的超级智能体,提供了天时、地利。

据36氪独家获悉,火山引擎是投入较大的企业之一,其已经深度合作一家头部明星车企。而据36氪了解,该车企也为火山引擎投入了上亿开发费,而字节则为此项目也从火山引擎与豆包分别抽调人手,组成了项目组。

豆包之外,阿里的通义千问也在快速切入座舱Agent市场,其与高通8797深度合作,推动端侧模型上车。显然,汽车AI座舱的这个新战场,巨头们和车企又已经严阵以待。

火山引擎组建专项组,死磕全链路AI助手

大模型上车不是新鲜事,但一年之间,产品形态已经全然不同。

去年DeepSeek爆火时,曾有一股大模型上车的热潮,但当时车企接入大模型大多通过云端引擎。比如豆包大模型上车大多是通过火山引擎,后者开放API给车企接入,完成适配,包括比亚迪、奔驰、上汽在内多家车企都这样做。

但效果并不理想。“我们接入后试了一下,它连基础的唤醒词都念不好。”一位车企研发人员向36氪汽车说道。这也导致模型接入之后只能提升问答能力,无法实现Agent能力。

问题不完全在技术,还有合作机制。火山引擎和车企启用了全新的合作模式。

36氪获悉,火山引擎与车企合作方成立专项组来推进豆包座舱助手项目,其中车企提供整车平台与落地能力,并投入上亿元的资金支持,将新座舱交互的开发主导权交给了火山引擎。

此外,这个项目中,火山引擎还在车端部署了一个约30B规模的模型,承担全域感知能力:视觉、语音、环境信息持续输入,实现“全时在线”。云端则运行3到4个核心Agent,负责舱驾协同、驾乘体验、舒适控制与情感交互等任务。

在此基础上,系统可以完成全双工语音对话——用户与系统的交流不再是你一句我一句,而是可以随时打断、插入、延续,接近人与人之间的自然对话。

“端侧部署大模型的优势在于可以访问本地所有文件,对本地App有操作权限。”一位座舱研发人员表示。

值得注意的是,此前汽车行业的“智能算力”主要集中在智驾领域,而在车端部署一个30B级别的大模型,几乎没有先例,就算智驾模型,目前行业所知的上限也在4B左右。

有消息人士向36氪透露,为了在车端运行这一超大模型,火山引擎找到英伟达定制了Thor z芯片,“

针对内存与带宽进行定制优化”,以AI Box的“外挂”算力盒子形式部署在车上。而在车展上,火山引擎也披露这一硬件方案。

公开信息显示,英伟达2024年Q4发布舱驾一体中央计算芯片Thor,包含Super/X/S/U/Z等产品线,Thor Z为入门版本,单颗算力360Tops。

“这更像是在车上跑一个实时的视频流系统,无视成本的尝试,但很难落到商业层面。”一位业内人士评价。按照其测算,如果用户频繁使用语音交互、Agent调度与视觉感知能力,单车每月的模型与算力成本可能超过10元,远高于现有车机服务成本。

另外,双方在工程层面也需要克服更多问题,“双方合作的是新车型平台,而车企本身又不具备OS能力,等于重做一套车机平台,APP几乎要重新适配,连地图都要深度定制,这是一个非常复杂且长周期的事情。”一位业内人士说道。

而火山引擎也为此项目进行了大力度投入,“上百人团队扑进来,同时死磕头部互联网应用服务商,如美团、高德地图等,每个app要花几个月重新封装。”知情人士说。

一辆车,一个AI大脑

整车层面的交互,向来复杂,有高安全相关的功能性交互,也有非安全相关的娱乐性交互,以及和智驾相关的跨越互动。

这种使用场景的分割,跨部门的阻力,也让车企通常难以突破局限,探索全车级的AI大脑形态。而火山引擎则认为,一个封闭的座舱场景中,由统一的AI大脑进行交互,是更极致的方案。

据相关负责人介绍,在新一代的汽车AI解决方案中,火山引擎将对话推理引擎、目标驱动引擎、学习成长引擎三大引擎融入统一的“汽车大脑”。

而且,AI的架构范式也在变化,openclaw在春节后快速风靡,车企也普遍认为,AI应该不再以简单的chatbot(聊天机器人)进入车内,而是需要以新的任务范式在车企,当一个“综合关键”。

火山引擎则提出了更具体的方案思路,不同于Chatbot(聊天机器人)的“回合制”交互模式,新的AI架构范式下,Agentic AI具备自主驱动能力,能够实时感知环境、接收反馈,并持续自主学习与迭代成长。依托强大的大模型底座,能够联动全域知识与多元工具,以明确的目标自主推进任务;也可针对执行结果进行自我复盘,实现持续进化。

拆开来看,“对话推理引擎”可以实现像真人一样自然的交流,告别冰冷的、机械的“回合制”问答。通过端侧的大模型拒识、VLM识别和豆包输入法同款的ASR能力,实现全时免唤醒词和多人对话能力,每次交流都会在该出现的时候自然加入对话。基于行业领先双流式全双工能力,可以实现人、车实时同频对话,随时打断、随时插话、自然如真人交流。

“目标驱动引擎”可以基于任务目标和环境反馈自主调用全域车载工具,真正像人一样去做事。它可以把复杂、多步骤、跨场景的事情从头到尾帮你办完,不用你反复交代。例如,根据后排孩子的状态和车端记忆,选用合适的多种方式:唱歌、放动画片、讲故事、做游戏、哄睡等,陪伴孩子整个旅途。

“学习成长引擎”能够像人一样不断在过程中总结经验,提升自己。不止局限于偏好、话题、场景类等基础记忆能力,更能在任务执行过程中沉淀经验,形成可复用的Skill。

通过AI与车的深度融合,火山引擎将与车企共同打造鲜活、聪明、普适的智能座舱用户体验,让车更像人,交流自由有情感、办事高智商能成长、操作像人的本能一样简单。

当然,面对车企交互的工程复杂性,火山引擎团队也有理性认知。团队相关负责人在访谈中表示,豆包AI座舱助手的项目优先级,就是做好车控这类基础能力。

“那在做车控的过程中,我们已经也迭代了好几个版本,慢慢发现需要接入更多的车辆控制的能力,从一开始接100多个,接到几百个,接到上千个,会发现怎么去收敛,怎么去避免幻觉,怎么去达到一个用户预期的结果。”

而这就需要加强端侧的能力。过往,豆包模型几乎都是部署在云端,而据介绍,目前在汽车的端侧,豆包大模型也已经部署。

除了端侧能力加强,还要依赖模型的自学习和进化能力。据业务负责人年介绍,一个复杂场景可能就是会跨越好多个工具调用组成,“其实你的自学习本质上就是说我在这个用户使用的过程中,我去用模型自己去提炼出对这个场景的KnowHow(知识点)。再把那个KnowHow反过来存下来,指导我的模型在这种场景下对工具调用的流程,或者说先后顺序、时序上的这种变化,其实那个才是真正做到自学习,所以我觉得现在市面上绝大多数讲自学习都是可能在某个领域里面有一点点的那种迭代而已,但不是真正的说一个完整的这种进化的感觉。”

过去多年,火山引擎在汽车行业积累,也帮助团队更快建立对整车交互的认知。据火山引擎披露的数据,目前,搭载豆包大模型的智能汽车已超过700万辆,搭载量稳居行业前列。本届车展期间,梅赛德斯-奔驰纯电GLC、上汽奥迪E7X、上汽大众ID. ERA 9X、奇瑞星途EX7、一汽红旗HS6 PHEV、别克至境E7、荣威新序列“家越”等多款搭载豆包大模型的重磅新车亮相。

随着全链条的AI能力逐步在座舱落地,汽车行业显然将掀起新AI技术热潮。

车企抢滩座舱AI,巨头们竞相进场

火山引擎和车企的“样板房”还在打造当中,另一边阿里通义千问等也在深度绑定高通8797平台,推动端侧大模型在新一代座舱中的规模化部署。高通8797/8397是2024年推出的第五代舱驾一体车规级芯片,对标英伟达Thor系列,单颗最高算力达640TOPS。

36氪获悉,千问主推的端侧模型规模在4B左右,包括比亚迪、广汽、理想、小鹏等车企都在接触当中。这意味着,在座舱战场上,豆包和千问再一次迎战。千问主绑高通8797,豆包主推英伟达的AI BOX形式,而英伟达也由此顺势从智驾切入座舱市场。

“灵魂问题”再次摆在车企面前。如果完全依赖外部模型,它们可能在短时间内获得更好的体验,但长期来看,入口与数据都可能被抽离。如果选择自研,则需要面对另一层约束——高昂的投入、不确定的回报,以及与头部模型公司之间的能力差距。

从现状来看,已有车企选择了折中路径。一方面与外部模型公司合作引入基础能力;另一方面,在上层保留自己的交互框架与数据体系,通过Agent或接口的方式进行封装。

有车企人士告诉36氪,最终座舱Agent的难点甚至可能不在于技术能力够不够,而是企业内部的部门墙能否顺利打通,例如原有语音团队的去留,统一Agent下,座舱和智驾团队的融合问题等。

一切尚未有定局,但座舱趋势已经逐渐清晰:端侧大模型上车,将在今年进入大规模验证阶段。

有座舱供应商告诉36氪,有大量车企都在考虑采用高通8797部署座舱大模型,其中不乏一向保守的传统豪华汽车品牌。而在车企的下一代的规划中,外挂AI Box的方案同样也在规划当中,“如果要实现更极致的体验,必须要有一些更激进的方案。”

“以后一定是个灵魂漫游的世界。终端上共用一个AI,这个AI通过车和手机实现用户的memory(记忆)和contact(接触)是共享的,专属于用户个人。”一位行业人士说道。

发布时间:2026-04-24 23:03