从 Siri 到 ChatGPT,为什么我们和机器的对话始终像一问一答,却无法像人与人交流一样自然?
目前,大多数大模型仍然主要依赖轮次式交互,难以实现真正顺畅的实时对话。用户需要先完成输入,模型再生成回答:在用户输入过程中,模型通常无法持续参与判断;模型生成内容时,它也很难同步接收新的语音、画面和用户动作。因此,大多数时候的实时对话,本质上仍是把语音识别、大模型、文本转语音等模块拼接在一起,用外部工程框架实现同步交流。
今天,为重新定义人机对话,前 OpenAI CTO Mira Murati初创公司 Thinking Machines Lab 发布了首款交互模型 Interaction Models 的研究预览,系统介绍了研究方法、早期结果和演示案例。研究团队指出,该模型展示了全新的交互能力,并在智能性与响应速度方面达到了目前最先进的水准。
blog 链接:https://thinkingmachines.ai/blog/interaction-models/
研究团队指出,交互模型 Interaction Models 可以持续接收音频、视频和文本,同时进行回应、工具调用和后台推理工作。
Interaction Models 有两个核心设计:一个具备时间感知的交互模型,用来维持与用户的实时交互;一个异步后台模型,用来处理持续推理、工具使用和更长时间跨度的工作。多模态架构与流式推理服务则支撑低延迟输入输出。
图|用户持续与交互模型互动,同时后台模型执行异步任务。两个系统共享上下文。
1.交互模型:200毫秒级实时对话管理
Interaction Models 引入时间对齐微轮次,把连续输入和输出切成 200 ms 片段,让模型持续接收音频、视频和文本,并同步生成文本或语音输出。
图|轮次式模型看到的是一条交替的 token 序列。具备时间感知能力的交互模型看到的是连续的微轮次流,因此沉默、重叠发言和打断仍会保留在模型上下文中。
在这种设计下,用户的停顿、重叠发言、打断和视觉变化,都成为模型判断下一步动作的依据。模型不必等待用户给出完整的指令,就能判断此刻是否需要回应。
官方演示视频中,Lilian Weng 在讲故事时,模型会判断她是在思考、自我修正,还是期待回应。模型会独立完成交互判断,不需要额外的对话管理模块。
2.后台模型:把异步任务接入实时对话
当遇到需要持续推理、工具调用、网页浏览或更长时间跨度的任务时,交互模型会把完整上下文交给异步运行的后台模型。
后台模型,接收的是完整对话状态。当结果生成后,后台模型会以流式方式返回,再由交互模型并入对话。用户可以继续说话,不必等待后台任务结束。
在官方演示视频中,人类看起来像是在与一个无所不知的模型对话,模型在工作时,会一边听用户的指令、一边回应,同时在后台搜索。
3.底层服务:用早期融合与流式会话压低延迟
为了适配 200 ms 微轮次的实时输入输出,研究团队采用早期融合路线:音频以 dMel 表示进入模型,图像被切成 40×40 patch 后编码,音频输出则通过 flow head 解码生成。
图|单个 200 ms 微轮次中的交互模型架构示意图。模型可以接收文本、音频或视频中的任意一种或多种输入,并预测文本和音频输出
在推理侧,研究团队运用流式会话,用服务端把连续片段追加到 GPU 内存中的持久序列里,以减少重新分配内存和元数据计算。研究团队还把相关能力并入 SGLang 上游,并通过 kernel 优化和 trainer-sampler alignment 等处理,支撑低延迟双向服务。
研究团队用已有交互基准、音频智能基准,以及自建实时交互任务对 TML-Interaction-Small 进行了评估。
在常规交互基准上,TML-Interaction-Small 的优势主要体现在响应速度和交互质量。FD-bench V1 中,它的简单话轮延迟为 0.40 秒,低于 GPT-realtime-2.0 minimal 的 1.18 秒、GPT-realtime-1.5 的 0.59 秒和 Gemini-3.1-flash-live-preview minimal 的 0.57 秒。
图|该模型在交互质量方面表现较高,同时在非 thinking 模型中具备较高智能水平。最佳响应速度以用户与模型交互之间的延迟衡量。
FD-bench V1.5 进一步衡量模型在用户打断、用户附和、背景语音等场景下的交互质量。TML-Interaction-Small 的平均质量为 77.8,高于几个实时模型对照。此外,研究团队也用 Audio MultiChallenge 和 IFEval 检查该模型的基础能力:前者 APR 为43.4%,后者文本准确率为 89.7%,与 GPT-realtime-2.0 minimal 的 89.6% 基本接近。
图|对于需要推理或工具调用的基准,结果为启用后台 Agent 后的表现。
实时模型的评估不能只看响应速度,更低的延迟需要与指令遵循、音频理解、工具使用和安全边界同时成立,才构成有效的交互能力。因此,研究团队进行了更多测试,包括带工具调用的 FD-bench V3、视频音频问答 QIVD、BigBench Audio、VoiceBench IFEval,以及 Harmbench 拒答率。在常规基准外,研究团队还设计了几组内部任务,用于评估模型在连续音视频输入中的实时响应能力。
其中,TimeSpeak 和 CueSpeak 负责评估音频交互能力。前者测试模型是否具备时间感知能力,按用户指定时间发出正确内容;后者测试模型是否能识别用户语音中的触发线索,并在合适时机给出语义正确的回应。结构显示,TML-Interaction-Small 在两项任务上分别得分 64.7 和 81.7,GPT-realtime-2.0 minimal 仅为 4.3 和 2.9。
RepCount-A、ProactiveVideoQA 和 Charades 负责评估视觉主动响应能力。结果显示,TML-Interaction-Small 在 RepCount-A 上得分 35.4,GPT-realtime-2.0 minimal得分为 1.3; Charades 上 mIoU 为 32.4,对照为 0;在 ProactiveVideoQA 上得分 33.5,高于 25.0 的不回答基线。
图|ProactiveVideoQA 上的不回答基线为 25.0
目前,Interaction Models 仍处于研究预览阶段,距离稳定可用的实时协作系统还有一定距离,主要包括以下 5 个方面:
更长时间的实时协作,仍然需要更细的上下文管理机制。连续音频和视频会快速占用上下文,流式会话可以支撑短会话和中等长度交互,但真实工作往往会跨越多个任务阶段,很少在几分钟内结束,这会进一步放大长上下文压力。
低延迟部署也会受到现实条件限制。实时音视频流依赖稳定连接;网络质量下降时,体验会明显变差。研究团队指出,后续系统需要提高可靠性,并训练模型更好地适应延迟帧。
更大模型的实时部署仍然受限。当前 TML-Interaction-Small 已经是 276B 参数 MoE,激活参数为 12B。研究团队认为,交互能力会随模型规模提升,但现阶段更大的预训练模型速度仍然不够,无法直接用于实时场景。他们计划在今年发布更大模型。
安全问题需要关注。长时间对话、多模态输入和实时工具调用,都会让安全校准变得更难。模型用语音拒答时,既要说得自然,也要说清楚明确拒绝的需求,模型主动插话也需要谨慎。模型什么时候开口、什么时候保持沉默,都会影响用户对系统的信任和控制感。
后台 Agent 机制仍处在早期阶段。研究团队提到,实时交互只是其中一部分,Agentic intelligence 仍然是关键能力。后台模型与交互模型如何协作,工具调用、网页浏览、长期规划和实时反馈如何组织进同一套系统,仍有待进一步验证。
本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。
发布时间:2026-05-12 17:02