Mira Murati新模型挑战实时AI交互_币安官网|币安交易所官网|全球最安全的交易平台

当前位置：首页-资讯-详情

Mira Murati新模型挑战实时AI交互

2026-05-12

离开OpenAI后，前首席技术官Mira Murati创办的Thinking Machines实验室终于公开展示了首批技术成果。该公司近日发布“交互模型”研究预览，核心方向并非传统聊天机器人，而是更接近“实时数字智能体”的新型AI系统。与当前主流大模型依赖语音转文字、文字推理再转语音的串联式方案不同，Thinking Machines选择直接从底层重构交互架构，让模型能够原生处理音频、视频与连续对话流。这意味着AI不再只是等待用户输入后再生成回答，而是像人与人沟通一样，持续接收环境信息并实时反馈。由于这一方向被视为下一代AI助手的重要基础能力，因此消息一经发布，便迅速引发行业关注。

此次最受关注的，是Thinking Machines提出的“微回合”交互机制。按照官方介绍，系统会以约200毫秒为一个单位持续接收外部信息，相当于AI始终保持“在线倾听”状态，而不是传统意义上的“一问一答”。这使用户在对话过程中能够随时打断、补充甚至改变问题方向，而模型可以即时调整响应。过去的大模型虽然也支持语音交流，但多数仍建立在离散式任务处理逻辑之上，用户说完一句话后系统才开始分析和生成。而Thinking Machines试图解决的，正是人与AI之间“交流节奏不自然”的问题。

另一个关键细节，则是其独特的前后台拆分架构。根据披露，系统前台负责维持连续对话体验，确保语音和视频互动不会中断；后台则专门处理复杂推理、网页搜索以及长链任务。后台完成分析后，结果会无缝返回前台继续交流。简单来说，用户感受到的是一个始终保持实时反应的AI，但背后实际上存在多个并行运行的推理模块。这种设计与传统大模型“一次性生成完整回答”的逻辑明显不同，更接近实时操作系统。

官方同时公布了首个模型TML-Interaction-Small的部分参数信息。该模型采用MOE（混合专家）架构，总参数规模达到2760亿，但每次仅激活约120亿参数，以兼顾性能与推理效率。值得注意的是，Thinking Machines并未把重点放在参数数量竞争上，而是强调“交互体验优化”。数据显示，该模型语音轮转延迟约为0.40秒，在FD-Bench v1.5测试中获得77.8分，超过GPT-Realtime-2.0以及Gemini 3.1 Flash Live等竞品。这意味着其在实时交流流畅度上已经具备相当强的竞争力。

从行业角度来看，Thinking Machines此次发布的内容，实际上反映出AI行业正在进入“实时交互”竞争阶段。过去两年，大模型发展的核心主要集中在文本理解与生成能力上，各家公司比拼的是参数规模、推理能力以及上下文长度。但随着模型基础能力逐渐趋同，一个明显变化是，用户开始更加关注交互体验本身。也就是说，未来AI竞争不仅是“会不会回答”，更是“能不能像真人一样自然交流”。

这也是为什么越来越多科技公司开始重视实时语音和多模态能力。此前，OpenAI、谷歌以及Anthropic都已经展示过语音助手方向的产品，但多数系统仍保留明显的“机器等待感”。用户必须等待AI处理完成后才能继续说话，而Thinking Machines则希望彻底消除这种停顿。对于消费者而言，真正自然的互动体验，可能比单纯提升推理准确率更容易改变使用习惯。

值得注意的是，Mira Murati的背景也让这一项目更具话题性。作为OpenAI早期核心高管之一，她曾深度参与ChatGPT以及多模态模型的发展。因此外界普遍认为，Thinking Machines在产品设计上可能更清楚现有系统的局限所在。此次新模型放弃传统“外部工具拼接”的方式，某种程度上也是在回应当前行业的一项痛点。许多AI语音助手实际上由多个模块串联而成，包括ASR语音识别、文本推理、TTS语音合成等，每一步都会增加延迟与错误累积。而原生实时架构，则试图从根源上解决这些问题。

更深层的背景，则是AI行业正在从“生成内容”走向“持续陪伴式智能”。过去的大模型更多是工具属性，用户打开后提出问题、获得答案、结束对话。但未来的AI助手，很可能需要长时间保持在线状态，持续理解环境、跟踪上下文并主动互动。这不仅涉及聊天，还可能扩展到视频会议、教育辅导、客服、游戏NPC甚至机器人控制。实时互动能力，将成为这些场景的核心基础。

事实上，类似方向已经开始吸引大量资本和创业公司布局。包括语音AI、数字人、实时翻译以及AI代理系统，都在尝试突破传统聊天模式。尤其在可穿戴设备和AR眼镜逐渐成熟后，实时AI助手可能成为下一代计算平台的重要入口。因此，Thinking Machines此次展示的技术，并不仅仅是一项实验功能，更像是在为未来的人机交互模式提前铺路。

不过，实时交互系统同样面临巨大挑战。首先是算力成本问题。持续监听和高速响应意味着模型必须长期保持低延迟运行，这对推理优化要求极高。其次，多模态实时处理还涉及隐私与安全风险，例如音视频数据如何存储、如何避免误触发等。再者，实时AI一旦进入长时间陪伴场景，其输出稳定性和情绪控制也会受到更严格审视。

Thinking Machines目前表示，未来几个月将开放有限预览，这意味着产品仍处于早期测试阶段。但从目前展示的技术路径来看，AI行业竞争正在从“谁更聪明”逐渐转向“谁更像真人”。相比过去强调模型知识量和参数规模的新一轮竞赛，实时交互体验可能更容易改变普通用户的日常使用方式。

可以预见，随着OpenAI、谷歌以及更多创业公司持续加码语音与多模态方向，AI助手之间的差异化竞争会越来越明显。而Thinking Machines此次亮相，也让外界看到，离开OpenAI后的核心高管们，正在尝试重新定义下一代人工智能的交互形态。

币安

随时随地，开启交易