小米冲破1T模型推理瓶颈，AI竞争开始转向效率战_币安官网|币安交易所官网|全球最安全的交易平台

当前位置：首页-资讯-详情

小米冲破1T模型推理瓶颈，AI竞争开始转向效率战

2026-06-09

大模型行业过去两年的竞争逻辑很简单：参数越大、训练规模越大、算力投入越多，往往意味着更强的能力。

但当参数规模迈入万亿级别后，另一个问题开始变得比“模型有多聪明”更现实——模型到底跑得动吗？

近日，小米Mimo团队联合AI编译优化系统组Tilert公布了一项推理优化成果：在单台标准8卡GPU服务器上，实现了1万亿参数混合专家（MoE）模型超过1000 tokens/s的生成速度，峰值接近1200 tokens/s。更重要的是，这一成绩并非依赖特殊硬件，而是在通用GPU环境下完成。

对于普通用户而言，1000 tokens/s或许只是一个抽象数字。但在大模型基础设施领域，这意味着另一件事：万亿级模型开始具备大规模商业部署的可能性。

过去几年，行业对大模型的讨论大多聚焦训练。

从GPT-4到Gemini，再到各类开源模型，市场习惯用参数规模、训练数据和基准测试成绩衡量技术进展。但对于真正提供服务的平台而言，训练成本只发生一次，推理成本却伴随模型整个生命周期。

简单来说，一个模型再强，如果每次响应都要消耗大量GPU资源，最终很难形成可持续商业模式。

这也是为什么近一年以来，越来越多科技公司开始将资源投入推理优化。

OpenAI持续优化推理架构，Meta研究稀疏化模型设计，谷歌强化TPU生态建设，本质上都在解决同一个问题——如何让更大的模型在有限硬件上跑得更快、更便宜。

从这个角度看，小米此次突破的价值并不完全体现在1000 tokens/s本身。

真正值得关注的是其技术路线。

过去行业普遍认为，万亿参数模型若想实现极高吞吐率，需要依赖更加激进的硬件方案。例如晶圆级集成架构、超大规模片上SRAM设计，甚至专门面向AI推理定制的新型芯片。

这些方案虽然性能突出，但成本极高，也意味着技术能力集中在少数头部企业手中。

而小米此次强调的是“标准通用硬件+模型系统协同优化”。

换句话说，并没有等待下一代芯片出现，而是通过编译器、调度系统、模型结构以及硬件资源管理的整体协同，挖掘现有GPU的性能边界。

这其实反映出AI基础设施行业正在发生的一种变化。

早期竞争主要依靠“堆算力”。

后来变成“买更多GPU”。

如今开始进入“算力效率竞争”。

类似的变化曾发生在云计算产业。

十年前企业比拼服务器数量，后来比拼数据中心规模，而今天决定竞争力的往往是资源利用率和软件调度能力。

AI行业正在经历相似过程。

对于小米而言，这项成果也透露出更深层的战略意图。

随着手机、汽车、IoT设备全面接入AI能力，未来小米需要面对的不是一个模型，而是数亿终端设备背后的推理需求。如果推理成本无法下降，AI服务规模化落地将受到明显限制。

因此，相比单纯追求模型参数增长，提高单位算力产出效率反而更符合实际商业需求。

尤其是在全球GPU供应仍然紧张的背景下，能够把一台服务器的产出提升30%、50%，甚至翻倍，其价值往往不亚于增加新的硬件采购。

当然，这并不意味着参数竞赛已经结束。

相反，随着模型规模继续增长，推理优化的重要性还会进一步上升。行业未来很可能出现一种新格局：模型团队负责不断提升能力边界，而系统团队负责将这些能力压缩进现实世界能够承受的成本框架之内。

从训练时代进入推理时代，这或许是大模型产业正在经历的关键转折。

当越来越多企业能够在通用硬件上运行万亿参数模型，AI竞争的核心问题也会发生变化。届时市场关注的未必是谁拥有最大的模型，而是谁能够以最低成本、最快速度，把这些模型真正送到用户手中。

币安

随时随地，开启交易