苹果AI硬件“首秀”押注AirPods, AI耳机即将告别“伪概念”?

今年2月,苹果CEO Tim Cook在一次内部全员会议上透露,公司正在开发由人工智能驱动的“新品类产品”。这句话在当时没有引起太多关注,因为大家都以为他在说智能眼镜。

但苹果押注的第一张牌,其实是一副能主动感知的智能耳机。

2026年5月8日,彭博社记者Mark Gurman证实:搭载摄像头的新款AirPods已进入DVT(设计验证测试)阶段,苹果员工已在内部实际使用,最快有望今年秋季随iOS 27一同发布。这款产品的研发可以追溯到四年前,远早于这一轮AI硬件热潮。

过去两年,AI硬件赛道从未冷清过,但真正改变用户体验的产品寥寥无几。耳机这个品类尤其如此——它是现代人日常佩戴时间最长的设备,却始终没能成为AI真正的落脚点。H90试图回答的,是一个困扰这个行业已久的问题——AI和耳机结合,到底应该做到什么程度。

时机也许正好。端侧芯片算力和大模型的上下文能力在2026年同步成熟,过去制约AI耳机的两道硬约束正在松动。苹果的入场,很可能成为这个品类从概念走向真实落地的转折点。

苹果AI可穿戴“首秀”

已经筹谋了四年

据Mark Gurman透露,这款产品的研发可以追溯到四年前,远早于这一轮AI硬件热潮。

值得注意的是,新款AirPods搭载的并非通常意义上的摄像头。根据MacRumors等多方来源,苹果内置的是微型红外摄像头,性质更接近iPhone的Face ID阵列——它不拍照、不录像,而是扫描佩戴者周围的环境,提取空间深度、物体轮廓与运动状态,向Siri提供实时情境数据。

这套数据被送入新一代H3芯片,在耳机本体完成端侧AI推理,全程不依赖云端。用9to5Mac的话说,这不是“Visual Intelligence的耳机版”,而是一套全新的环境感知架构。

苹果将这套能力命名为“ambient intelligence”(环境智能)。它的运作逻辑与现有的所有语音助手都不同:Siri不再等你开口问,而是持续感知你的环境,在判断你需要帮助的时刻主动介入。这种“主动出现、无感退场”的交互方式,是语音助手过去10年从未真正实现过的。

H90只是苹果可穿戴设备布局的第一步。根据Bloomberg和LA Times的报道,苹果同时在推进另外两款AI设备:代号N50的智能眼镜,计划2026年底启动量产、2027年正式发布;以及一款可别在衬衫上或作为项链佩戴的AI吊坠,内置always-on摄像头与麦克风。

三款产品共享同一套逻辑:不是取代iPhone,而是在人体周围构建一个多模态感知网络,让Siri第一次真正拥有“眼睛”。

就在Gurman报道发出的同一天,供应链消息给这个计划泼了冷水:H90项目部分产线已“原地解散”,直接原因是欧盟隐私法规的合规压力。GDPR对生物特征数据处理的严格限制,以及欧盟法院2025年12月判决要求在公共场合被动采集数据时适用即时告知义务,在现实中几乎无法执行。

不过,多数分析人士认为这次叫停更像是节奏上的调整。H90的硬件研发已经推进到DVT阶段,苹果不太可能让四年的努力付诸东流。更合理的判断是,它在等一个监管层面更明确的信号。

本地芯片、大模型双重加持

AI耳机或将告别“伪智能”

过去两年,AI耳机看似一片繁荣景象,仔细观察却难免令人失望。市场上涌现出一大批打着“AI耳机”旗号的产品,核心功能几乎只有翻译和会议转写,部分厂商还堆砌了AI健身指导、星座占卜等噱头,但都是把手机功能通过蓝牙“搬运”到耳机端,真正的端侧AI能力几乎完全缺席,仅能在本地实现基础语音唤醒。

AI耳机之所以始终停留在“伪智能”层面,源于硬件、软件的双重约束。硬件层面,耳机的电池容量以毫瓦时计,主流芯片算力不足手机的1%,根本跑不动任何像样的本地大模型。

更根本的限制在软件:当前大多数AI耳机的语音交互还停留在“指令-响应”的线性逻辑里,无法理解模糊表达和多轮对话,上下文在两轮对话之间几乎断裂。用户必须牢记固定指令,稍有偏差就无法识别。这样的AI耳机,本质上只是一个更花哨的语音遥控器。

随着硬件与软件同步迎来突破,这种局面在2026年开始改变,在苹果的示范带动效应之下,真正的AI耳机有望迎来全面落地。

硬件层面,本地算力的瓶颈正在被打破。苹果为H90专门研发的H3芯片,就实现了视觉与音频多模态数据的本地AI推理。

2025年5月,OpenAI以约65亿美元收购了前苹果首席设计师Jony Ive联合创立的设计公司LoveFrom。据多方供应链消息,双方合作的首款产品代号“Sweet Pea”,极有可能是一款主打AI交互的智能耳机,将搭载2nm工艺定制芯片,目标是在耳机本体实现AI任务本地处理,计划于2026年下半年发布。

苹果与OpenAI两家公司从不同路径,指向同一个判断:AI耳机真正的独立性,必须从芯片层面建立起来。

软件层面,大模型能力的成熟正在重写语音交互的上限。当前主流大模型的上下文理解窗口已可容纳一场完整会议、一段持续的对话,而不再是一问一答的指令式交互。华为FreeClip 2于2026年1月起支持豆包语音唤醒,在交互入口上让“小艺”为第三方大模型让路。这是一次坦诚的承认:单一系统AI助手在对话自然度上已无法满足用户需求。

硬件与软件的双重突破叠加,使AI耳机在2026年呈现出几个清晰的进化方向。

从“音频采集”到"环境全息感知"。 苹果H90的红外摄像头让耳机第一次具备了对物理空间的主动感知能力——不只是听见声音,而是理解场景。时空壶W4系列则从声学维度切入同一方向:骨声纹与气导混合拾音架构可区分对话者的方位与身份,并实现分角色的精准翻译。

传感器维度的拓展,让耳机从单一的音频设备,逐渐演变为一个对周围世界有感知能力的终端。

从“手机外设”到“随身AI中枢”。 当端侧算力真正落地,耳机与手机的关系将发生根本性重构。未来,耳机是能独立感知、独立推理、独立响应的终端,手机退化为可选的数据补充来源。OpenAI对“Sweet Pea”的高预期,正是基于这样的判断:一旦耳机成为独立AI终端,它的使用频次和用户黏性将远超此前任何可穿戴设备。

从“被动响应”到“主动感知”。 传统语音助手的逻辑是:用户发出指令,AI执行,结束。新一代AI耳机追求的,是AI持续感知用户的状态与场景,在需要的时候主动出现,在不需要的时候彻底隐形。

苹果的“ambient intelligence”是这个方向最清晰的表达——Siri不再等你开口,而是在判断你需要帮助的时刻主动介入。Jony Ive的设计哲学向来主张"技术应当隐形",OpenAI的"Sweet Pea"同样指向这个终态。这不只是某一款产品的设计选择,而是整个赛道正在越过的一个临界点。

据The Business Research Company数据,预计2026年全球AI耳机市场规模达 74.2亿美元,2030 年将达173.4亿美元。增长的核心驱动力,正在从 “内置大模型”的技术标签,转向真实可感的场景价值。

耳机、眼镜争夺AI中枢

国内外大厂双线押注

当AI耳机开始从手机外设进化为随身AI中枢,一个更大的问题随之浮出水面:在可穿戴AI的版图里,耳机与眼镜究竟是竞争关系,还是分工关系?

智能眼镜赛道在2025年经历了真实的爆发:Omdia数据显示全球AI眼镜出货量达870万台,同比增长322%,Ray-Ban Meta独占约85.2%市场份额。2026年国内市场同样热闹,豆包AI眼镜、千问AI眼镜相继入场,百度、小米、华为也披露了各自规划。

即便如此,眼镜仍有其结构性局限:全球约六成成年人不需要日常佩戴眼镜,戴上一副智能眼镜本身就是额外的习惯负担;带摄像头的设备在公共场合引发的“被监视感”,也从Google Glass时代延续至今。

相比之下,耳机是现代人佩戴时间最长的电子设备之一。语音又是AI能力最自然的输出端——不需要抬头看屏幕,不需要掏出手机,不需要改变任何正在进行的动作。当你在走路时,眼镜需要你把视线从路面移到镜片上;耳机可以在任何时候,用最无感的方式把信息传递给你。

正因如此,几乎所有押注智能眼镜的公司,同时也在深度布局智能耳机。字节跳动是“耳机先行”的典型代表:其首款AI可穿戴是2024年10月发布的Ola Friend耳机,2025年7月集成豆包同传大模型2.0,可实现展会、谈判等复杂场景实时同传。而豆包AI眼镜直到2026年第一季度才推出基础版,高端版要到年底上市,两者落地时间差达18个月。

阿里则采取了“眼镜先行,耳机跟进”的策略。2026年3月发布千问AI眼镜,主打 “所见即所得”视觉交互,深度整合阿里生态应用。千问AI耳机计划年内发布,专注语音助手与内容生态。与字节不同,阿里明确提出“眼镜+耳机+指环”三终端协同战略,各产品线分工明确、场景互补。

当然,耳机并非没有挑战。续航是第一道坎:持续的环境感知和AI推理极大消耗电量,开启全天候环境感知后,目前的电池技术只能支撑不到4小时。

隐私是第二道坎,也是目前监管层面压力最集中的地方。耳机的麦克风常驻、传感器持续采集,天然触碰隐私敏感区域。在欧盟,这一压力已经具体化为法规约束:GDPR对生物特征数据处理的严格限制,以及欧盟法院2025年12月判决要求在公共场合被动采集数据时适用即时告知义务——这也正是苹果H90在欧洲遭遇合规障碍的直接原因。

即便在监管相对宽松的美国市场,用户对AI设备持续采集私人对话的警惕同样普遍存在。如何在环境感知与隐私保护之间找到用户真正接受的平衡点,是所有AI耳机厂商都有待求解的答卷。

不过,这些挑战并不改变大厂们共同的判断:眼镜和耳机不是非此即彼的竞争,而是在感知维度上互补的两个入口。

两者都不是终点,而是通向同一个目标的不同路径——让AI彻底跳出屏幕,以最低的感知负担融入人类的物理世界。

这场竞争的终局,不是某一款设备赢了另一款设备,而是当耳机与眼镜的能力足够成熟、协同足够顺畅,用户会发现自己早已不再需要掏出手机。那个时刻,才是AI真正完成“从屏幕走向现实”的节点。

参考资料:

[1] 苹果第一个 AI 硬件,还没发布就已经难产了,爱范儿

[2] 2025的耳机赛道:AI功能哑火、翻译耳机崛起,一线玩家“贴身肉搏”,雷科技

本文来自微信公众号“AI价值官”,作者:星野,编辑:美圻,36氪经授权发布。

发布时间:2026-05-11 12:23