前OpenAI CTO创业后首个「交互」大模型：原生、实时处理人机协作-新糖宝胶囊官方网站

从 Siri 到 ChatGPT，为什么我们和机器的对话始终像一问一答，却无法像人与人交流一样自然？

目前，大多数大模型仍然主要依赖轮次式交互，难以实现真正顺畅的实时对话。用户需要先完成输入，模型再生成回答：在用户输入过程中，模型通常无法持续参与判断；模型生成内容时，它也很难同步接收新的语音、画面和用户动作。因此，大多数时候的实时对话，本质上仍是把语音识别、大模型、文本转语音等模块拼接在一起，用外部工程框架实现同步交流。

今天，为重新定义人机对话，前 OpenAI CTO Mira Murati初创公司 Thinking Machines Lab 发布了首款交互模型 Interaction Models 的研究预览，系统介绍了研究方法、早期结果和演示案例。研究团队指出，该模型展示了全新的交互能力，并在智能性与响应速度方面达到了目前最先进的水准。

blog 链接：https://thinkingmachines.ai/blog/interaction-models/

研究团队指出，交互模型 Interaction Models 可以持续接收音频、视频和文本，同时进行回应、工具调用和后台推理工作。

面向实时协作的双模型系统

Interaction Models 有两个核心设计：一个具备时间感知的交互模型，用来维持与用户的实时交互；一个异步后台模型，用来处理持续推理、工具使用和更长时间跨度的工作。多模态架构与流式推理服务则支撑低延迟输入输出。

图｜用户持续与交互模型互动，同时后台模型执行异步任务。两个系统共享上下文。

1.交互模型：200毫秒级实时对话管理

Interaction Models 引入时间对齐微轮次，把连续输入和输出切成 200 ms 片段，让模型持续接收音频、视频和文本，并同步生成文本或语音输出。

图｜轮次式模型看到的是一条交替的 token 序列。具备时间感知能力的交互模型看到的是连续的微轮次流，因此沉默、重叠发言和打断仍会保留在模型上下文中。

在这种设计下，用户的停顿、重叠发言、打断和视觉变化，都成为模型判断下一步动作的依据。模型不必等待用户给出完整的指令，就能判断此刻是否需要回应。

官方演示视频中，Lilian Weng 在讲故事时，模型会判断她是在思考、自我修正，还是期待回应。模型会独立完成交互判断，不需要额外的对话管理模块。

2.后台模型：把异步任务接入实时对话

当遇到需要持续推理、工具调用、网页浏览或更长时间跨度的任务时，交互模型会把完整上下文交给异步运行的后台模型。

后台模型，接收的是完整对话状态。当结果生成后，后台模型会以流式方式返回，再由交互模型并入对话。用户可以继续说话，不必等待后台任务结束。

在官方演示视频中，人类看起来像是在与一个无所不知的模型对话，模型在工作时，会一边听用户的指令、一边回应，同时在后台搜索。

3.底层服务：用早期融合与流式会话压低延迟

为了适配 200 ms 微轮次的实时输入输出，研究团队采用早期融合路线：音频以 dMel 表示进入模型，图像被切成 40×40 patch 后编码，音频输出则通过 flow head 解码生成。

图｜单个 200 ms 微轮次中的交互模型架构示意图。模型可以接收文本、音频或视频中的任意一种或多种输入，并预测文本和音频输出

在推理侧，研究团队运用流式会话，用服务端把连续片段追加到 GPU 内存中的持久序列里，以减少重新分配内存和元数据计算。研究团队还把相关能力并入 SGLang 上游，并通过 kernel 优化和 trainer-sampler alignment 等处理，支撑低延迟双向服务。

更低延迟，更强实时交互

研究团队用已有交互基准、音频智能基准，以及自建实时交互任务对 TML-Interaction-Small 进行了评估。

在常规交互基准上，TML-Interaction-Small 的优势主要体现在响应速度和交互质量。FD-bench V1 中，它的简单话轮延迟为 0.40 秒，低于 GPT-realtime-2.0 minimal 的 1.18 秒、GPT-realtime-1.5 的 0.59 秒和 Gemini-3.1-flash-live-preview minimal 的 0.57 秒。

图｜该模型在交互质量方面表现较高，同时在非 thinking 模型中具备较高智能水平。最佳响应速度以用户与模型交互之间的延迟衡量。

FD-bench V1.5 进一步衡量模型在用户打断、用户附和、背景语音等场景下的交互质量。TML-Interaction-Small 的平均质量为 77.8，高于几个实时模型对照。此外，研究团队也用 Audio MultiChallenge 和 IFEval 检查该模型的基础能力：前者 APR 为43.4%，后者文本准确率为 89.7%，与 GPT-realtime-2.0 minimal 的 89.6% 基本接近。

图｜对于需要推理或工具调用的基准，结果为启用后台 Agent 后的表现。

实时模型的评估不能只看响应速度，更低的延迟需要与指令遵循、音频理解、工具使用和安全边界同时成立，才构成有效的交互能力。因此，研究团队进行了更多测试，包括带工具调用的 FD-bench V3、视频音频问答 QIVD、BigBench Audio、VoiceBench IFEval，以及 Harmbench 拒答率。在常规基准外，研究团队还设计了几组内部任务，用于评估模型在连续音视频输入中的实时响应能力。

其中，TimeSpeak 和 CueSpeak 负责评估音频交互能力。前者测试模型是否具备时间感知能力，按用户指定时间发出正确内容；后者测试模型是否能识别用户语音中的触发线索，并在合适时机给出语义正确的回应。结构显示，TML-Interaction-Small 在两项任务上分别得分 64.7 和 81.7，GPT-realtime-2.0 minimal 仅为 4.3 和 2.9。

RepCount-A、ProactiveVideoQA 和 Charades 负责评估视觉主动响应能力。结果显示，TML-Interaction-Small 在 RepCount-A 上得分 35.4，GPT-realtime-2.0 minimal得分为 1.3； Charades 上 mIoU 为 32.4，对照为 0；在 ProactiveVideoQA 上得分 33.5，高于 25.0 的不回答基线。

图｜ProactiveVideoQA 上的不回答基线为 25.0

不足与未来方向

目前，Interaction Models 仍处于研究预览阶段，距离稳定可用的实时协作系统还有一定距离，主要包括以下 5 个方面：

更长时间的实时协作，仍然需要更细的上下文管理机制。连续音频和视频会快速占用上下文，流式会话可以支撑短会话和中等长度交互，但真实工作往往会跨越多个任务阶段，很少在几分钟内结束，这会进一步放大长上下文压力。

低延迟部署也会受到现实条件限制。实时音视频流依赖稳定连接；网络质量下降时，体验会明显变差。研究团队指出，后续系统需要提高可靠性，并训练模型更好地适应延迟帧。

更大模型的实时部署仍然受限。当前 TML-Interaction-Small 已经是 276B 参数 MoE，激活参数为 12B。研究团队认为，交互能力会随模型规模提升，但现阶段更大的预训练模型速度仍然不够，无法直接用于实时场景。他们计划在今年发布更大模型。

安全问题需要关注。长时间对话、多模态输入和实时工具调用，都会让安全校准变得更难。模型用语音拒答时，既要说得自然，也要说清楚明确拒绝的需求，模型主动插话也需要谨慎。模型什么时候开口、什么时候保持沉默，都会影响用户对系统的信任和控制感。

后台 Agent 机制仍处在早期阶段。研究团队提到，实时交互只是其中一部分，Agentic intelligence 仍然是关键能力。后台模型与交互模型如何协作，工具调用、网页浏览、长期规划和实时反馈如何组织进同一套系统，仍有待进一步验证。

本文来自微信公众号 “学术头条”（ID：SciTouTiao），作者：学术头条，36氪经授权发布。

发布时间：2026-05-12 17:02

上一篇:
本田跌麻了，月销2.2万，连新势力都不如了
下一篇:
AI推理时代新周期

前OpenAI CTO创业后首个「交互」大模型：原生、实时处理人机协作

面向实时协作的双模型系统

更低延迟，更强实时交互

不足与未来方向

本田跌麻了，月销2.2万，连新势力都不如了

AI推理时代新周期