小米疯狂破壁:8卡标准服务器实现千tokens/秒推理,万亿MoE模型加速驶入平民时代
小米疯狂破壁:8卡标准服务器实现千tokens/秒推理,万亿MoE模型加速驶入平民时代
速度奇迹:从不可能到1,000 tps的跨越
就在业界还在为百亿参数模型的推理延迟头痛时,小米MiMo团队投下了一枚重磅炸弹。他们最新发布的MiMo-V2.5-Pro UltraSpeed框架,声称在单个标准8-GPU服务器节点上,将1万亿参数规模的混合专家模型(MoE)输出速度推至令人瞠目的每秒1,000 tokens以上。如果这一数据属实,它已经远超人类阅读速度,彻底改写了大型模型部署的成本与性能公式。这不是在定制的晶圆级芯片Cerebras上,也不是在依赖巨大SRAM缓存的高成本Groq硬件上取得的,而是在每一家云计算公司都能轻易获取的通用GPU集群上实现的。这一点极为关键,因为它意味着顶尖推理能力不再是超大规模AI厂商的专属特权。
谁才配得上“推理之王”?一次标准的行业范式颠覆
长期以来,超高速推理的叙事被两类异质计算平台垄断。Cerebras凭借整片晶圆级引擎和片上内存,将推理推至极高吞吐区间;Groq则通过确定性张量流处理器和庞大的SRAM来消除内存瓶颈。但两者都面临成本高昂、生态封闭、难以灵活的批评。小米MiMo的路径截然不同,它宣称不依赖任何非标准硬件,直接在8张标准GPU(可能是NVIDIA H100或H800)的机箱内完成任务。这背后暗示着极致的软件优化:可能包括精巧的专家卸载策略、动态批处理与异步流水线、激进的内核融合以及几乎零拷贝的通信算法。若真如此,MiMo-V2.5-Pro UltraSpeed不仅在tps数字上夺冠,更在“每tokens/美元”上对竞争对手形成降维打击。
万亿MoE模型落地的最后一块拼图
1万亿参数的MoE模型通常因激活参数规模仍达数百亿,被普遍认为难以实现实时的交互式对话。此次突破恰好击中了痛点——当你需要从海量专家网络中快速路由并在GPU间传递中间结果时,传统方案往往因为全对全通信和内存墙而崩溃。小米的做法很可能是将大量冷门专家驻留在主机内存或NVMe存储中,仅当需要时才以预测性预取的方式载入,并通过高达1000 tokens/s的生成速度掩盖加载的微延迟。如此一来,万亿模型在单节点上不仅可以跑,还能跑得飞快,这对垂域巨型MoE的私有化部署开启了无限想象空间。
去伪存真:数据背后的现实检验
当然,“1,000+ tps”的宣称也需审慎看待。业界惯用的基准测试差异极大——是首个token的生成时间、平均吞吐,还是特定短序列下的峰值速度?批处理大小、模型是否完全驻留GPU显存、输入输出长度都会剧烈影响实测结果。目前该消息仅通过社区爆料浮现,官方尚未披露完整压测报告。但无论实情如何,它已成功将聚光灯打向一个关键命题:当软件定义硬件的智慧被发挥到极致时,推理基础设施的效率和民主化将不再受制于芯片形态。这或许是DeepSeek之后,中国AI工程团队对“低成本极致性能”理念的又一次强力回应。我们也将持续跟踪MiMo-V2.5-Pro的开源进展与第三方复现结果,因为只有经过社区压力测试的奇迹,才算真正的工程范本。