小米疯狂破壁：8卡标准服务器实现千tokens/秒推理，万亿MoE模型加速驶入平民时代

📅 2026-06-09 Reddit - LocalLLaMA (每日最热)

小米疯狂破壁：8卡标准服务器实现千tokens/秒推理，万亿MoE模型加速驶入平民时代

速度奇迹：从不可能到1,000 tps的跨越

就在业界还在为百亿参数模型的推理延迟头痛时，小米MiMo团队投下了一枚重磅炸弹。他们最新发布的MiMo-V2.5-Pro UltraSpeed框架，声称在单个标准8-GPU服务器节点上，将1万亿参数规模的混合专家模型（MoE）输出速度推至令人瞠目的每秒1,000 tokens以上。如果这一数据属实，它已经远超人类阅读速度，彻底改写了大型模型部署的成本与性能公式。这不是在定制的晶圆级芯片Cerebras上，也不是在依赖巨大SRAM缓存的高成本Groq硬件上取得的，而是在每一家云计算公司都能轻易获取的通用GPU集群上实现的。这一点极为关键，因为它意味着顶尖推理能力不再是超大规模AI厂商的专属特权。

谁才配得上“推理之王”？一次标准的行业范式颠覆

长期以来，超高速推理的叙事被两类异质计算平台垄断。Cerebras凭借整片晶圆级引擎和片上内存，将推理推至极高吞吐区间；Groq则通过确定性张量流处理器和庞大的SRAM来消除内存瓶颈。但两者都面临成本高昂、生态封闭、难以灵活的批评。小米MiMo的路径截然不同，它宣称不依赖任何非标准硬件，直接在8张标准GPU（可能是NVIDIA H100或H800）的机箱内完成任务。这背后暗示着极致的软件优化：可能包括精巧的专家卸载策略、动态批处理与异步流水线、激进的内核融合以及几乎零拷贝的通信算法。若真如此，MiMo-V2.5-Pro UltraSpeed不仅在tps数字上夺冠，更在“每tokens/美元”上对竞争对手形成降维打击。

万亿MoE模型落地的最后一块拼图

1万亿参数的MoE模型通常因激活参数规模仍达数百亿，被普遍认为难以实现实时的交互式对话。此次突破恰好击中了痛点——当你需要从海量专家网络中快速路由并在GPU间传递中间结果时，传统方案往往因为全对全通信和内存墙而崩溃。小米的做法很可能是将大量冷门专家驻留在主机内存或NVMe存储中，仅当需要时才以预测性预取的方式载入，并通过高达1000 tokens/s的生成速度掩盖加载的微延迟。如此一来，万亿模型在单节点上不仅可以跑，还能跑得飞快，这对垂域巨型MoE的私有化部署开启了无限想象空间。

去伪存真：数据背后的现实检验

当然，“1,000+ tps”的宣称也需审慎看待。业界惯用的基准测试差异极大——是首个token的生成时间、平均吞吐，还是特定短序列下的峰值速度？批处理大小、模型是否完全驻留GPU显存、输入输出长度都会剧烈影响实测结果。目前该消息仅通过社区爆料浮现，官方尚未披露完整压测报告。但无论实情如何，它已成功将聚光灯打向一个关键命题：当软件定义硬件的智慧被发挥到极致时，推理基础设施的效率和民主化将不再受制于芯片形态。这或许是DeepSeek之后，中国AI工程团队对“低成本极致性能”理念的又一次强力回应。我们也将持续跟踪MiMo-V2.5-Pro的开源进展与第三方复现结果，因为只有经过社区压力测试的奇迹，才算真正的工程范本。