小米发布MiMo加速版，推理速度升至千词元级

分类：业界 | 时间：2026-06-09 06:23 | 关注

　　小米发布了 MiMo-V2.5-Pro-UltraSpeed，这是其万亿参数旗舰模型的加速推理版本。公司称，新版本在一台由 8 张通用 GPU 组成的标准服务器上，推理速度已超过每秒 1000 个 token，演示峰值接近 1200 个 token。

　　这次更新的重点不在新模型本身，而在推理效率。相比依赖定制芯片的方案，小米此次强调使用的是通用硬件，并通过软件和模型侧优化实现提速。这意味着，高速部署大模型的门槛可能进一步下降。

　　两项技术推动提速

　　小米此次主要采用了两项技术。第一项是 FP4 量化。公司将模型中占主要参数规模的专家层压缩至 4-bit 精度，其余部分仍保持较高精度。这样做可以减少显存占用和带宽压力，从而提升推理速度。

　　第二项是 DFlash 推测解码。传统推测解码通常先由较小模型预测少量 token，再由大模型并行验证。DFlash 则改为一次性提出整块 token，再交由主模型验证。在代码任务中，主模型平均每轮可接受 8 个候选 token 中的 6.3 个。

　　小米与推理合作方 TileRT 还对执行流程做了优化。其思路是让计算流程持续驻留在 GPU 内部，减少算子逐次启动带来的额外开销。

　　主流模型速度对比

　　按文中援引的 Artificial Analysis 数据，当前主流通用模型的输出速度普遍低于这一水平。报道提到，GPT 系列常见交互速度约为每秒 68 个 token，Claude Opus 4.6 约为每秒 71 个 token，Gemini Flash 约为每秒 192 个 token。

　　报道还提到，Cerebras 和 Groq 等公司长期围绕高吞吐推理布局，并依赖自研芯片架构提升速度。相比之下，小米此次是在通用 GPU 节点上完成这一结果，强调的是软件优化带来的性能提升。

　　 6月9日启动限量试用

　　小米表示，UltraSpeed 加速的是原版 MiMo-V2.5-Pro，而不是简化后的轻量模型。该模型此前在代码基准测试中的表现，被描述为接近 Claude Opus 水平。

　　公司计划在 6 月 9 日至 6 月 23 日开放限量 API 试用，采用申请制，企业用户和专业开发者将获得优先资格。定价方面，UltraSpeed 版本价格约为标准 MiMo 费率的 3 倍，但生成速度约可提升至 10 倍。

　　补充信息：小米称，采用 FP4 与 DFlash 的检查点模型已在 Hugging Face 开源，供社区测试。

温馨提示：内容仅供参考