Mira Murati新模型挑战实时AI交互
离开OpenAI后,前首席技术官Mira Murati创办的Thinking Machines实验室终于公开展示了首批技术成果。该公司近日发布“交互模型”研究预览,核心方向并非传统聊天机器人,而是更接近“实时数字智能体”的新型AI系统。与当前主流大模型依赖语音转文字、文字推理再转语音的串联式方案不同,Thinking Machines选择直接从底层重构交互架构,让模型能够原生处理音频、视频与连续对话流。这意味着AI不再只是等待用户输入后再生成回答,而是像人与人沟通一样,持续接收环境信息并实时反馈。由于这一方向被视为下一代AI助手的重要基础能力,因此消息一经发布,便迅速引发行业关注。
此次最受关注的,是Thinking Machines提出的“微回合”交互机制。按照官方介绍,系统会以约200毫秒为一个单位持续接收外部信息,相当于AI始终保持“在线倾听”状态,而不是传统意义上的“一问一答”。这使用户在对话过程中能够随时打断、补充甚至改变问题方向,而模型可以即时调整响应。过去的大模型虽然也支持语音交流,但多数仍建立在离散式任务处理逻辑之上,用户说完一句话后系统才开始分析和生成。而Thinking Machines试图解决的,正是人与AI之间“交流节奏不自然”的问题。
另一个关键细节,则是其独特的前后台拆分架构。根据披露,系统前台负责维持连续对话体验,确保语音和视频互动不会中断;后台则专门处理复杂推理、网页搜索以及长链任务。后台完成分析后,结果会无缝返回前台继续交流。简单来说,用户感受到的是一个始终保持实时反应的AI,但背后实际上存在多个并行运行的推理模块。这种设计与传统大模型“一次性生成完整回答”的逻辑明显不同,更接近实时操作系统。
官方同时公布了首个模型TML-Interaction-Small的部分参数信息。该模型采用MOE(混合专家)架构,总参数规模达到2760亿,但每次仅激活约120亿参数,以兼顾性能与推理效率。值得注意的是,Thinking Machines并未把重点放在参数数量竞争上,而是强调“交互体验优化”。数据显示,该模型语音轮转延迟约为0.40秒,在FD-Bench v1.5测试中获得77.8分,超过GPT-Realtime-2.0以及Gemini 3.1 Flash Live等竞品。这意味着其在实时交流流畅度上已经具备相当强的竞争力。
从行业角度来看,Thinking Machines此次发布的内容,实际上反映出AI行业正在进入“实时交互”竞争阶段。过去两年,大模型发展的核心主要集中在文本理解与生成能力上,各家公司比拼的是参数规模、推理能力以及上下文长度。但随着模型基础能力逐渐趋同,一个明显变化是,用户开始更加关注交互体验本身。也就是说,未来AI竞争不仅是“会不会回答”,更是“能不能像真人一样自然交流”。
这也是为什么越来越多科技公司开始重视实时语音和多模态能力。此前,OpenAI、谷歌以及Anthropic都已经展示过语音助手方向的产品,但多数系统仍保留明显的“机器等待感”。用户必须等待AI处理完成后才能继续说话,而Thinking Machines则希望彻底消除这种停顿。对于消费者而言,真正自然的互动体验,可能比单纯提升推理准确率更容易改变使用习惯。
值得注意的是,Mira Murati的背景也让这一项目更具话题性。作为OpenAI早期核心高管之一,她曾深度参与ChatGPT以及多模态模型的发展。因此外界普遍认为,Thinking Machines在产品设计上可能更清楚现有系统的局限所在。此次新模型放弃传统“外部工具拼接”的方式,某种程度上也是在回应当前行业的一项痛点。许多AI语音助手实际上由多个模块串联而成,包括ASR语音识别、文本推理、TTS语音合成等,每一步都会增加延迟与错误累积。而原生实时架构,则试图从根源上解决这些问题。
更深层的背景,则是AI行业正在从“生成内容”走向“持续陪伴式智能”。过去的大模型更多是工具属性,用户打开后提出问题、获得答案、结束对话。但未来的AI助手,很可能需要长时间保持在线状态,持续理解环境、跟踪上下文并主动互动。这不仅涉及聊天,还可能扩展到视频会议、教育辅导、客服、游戏NPC甚至机器人控制。实时互动能力,将成为这些场景的核心基础。
事实上,类似方向已经开始吸引大量资本和创业公司布局。包括语音AI、数字人、实时翻译以及AI代理系统,都在尝试突破传统聊天模式。尤其在可穿戴设备和AR眼镜逐渐成熟后,实时AI助手可能成为下一代计算平台的重要入口。因此,Thinking Machines此次展示的技术,并不仅仅是一项实验功能,更像是在为未来的人机交互模式提前铺路。
不过,实时交互系统同样面临巨大挑战。首先是算力成本问题。持续监听和高速响应意味着模型必须长期保持低延迟运行,这对推理优化要求极高。其次,多模态实时处理还涉及隐私与安全风险,例如音视频数据如何存储、如何避免误触发等。再者,实时AI一旦进入长时间陪伴场景,其输出稳定性和情绪控制也会受到更严格审视。
Thinking Machines目前表示,未来几个月将开放有限预览,这意味着产品仍处于早期测试阶段。但从目前展示的技术路径来看,AI行业竞争正在从“谁更聪明”逐渐转向“谁更像真人”。相比过去强调模型知识量和参数规模的新一轮竞赛,实时交互体验可能更容易改变普通用户的日常使用方式。
可以预见,随着OpenAI、谷歌以及更多创业公司持续加码语音与多模态方向,AI助手之间的差异化竞争会越来越明显。而Thinking Machines此次亮相,也让外界看到,离开OpenAI后的核心高管们,正在尝试重新定义下一代人工智能的交互形态。