小米发布了 MiMo-V2.5-Pro-UltraSpeed,这是其万亿参数旗舰模型的加速推理版本。公司称,新版本在一台由 8 张通用 GPU 组成的标准服务器上,推理速度已超过每秒 1000 个 token,演示峰值接近 1200 个 token。
这次更新的重点不在新模型本身,而在推理效率。相比依赖定制芯片的方案,小米此次强调使用的是通用硬件,并通过软件和模型侧优化实现提速。这意味着,高速部署大模型的门槛可能进一步下降。
两项技术推动提速
小米此次主要采用了两项技术。第一项是 FP4 量化。公司将模型中占主要参数规模的专家层压缩至 4-bit 精度,其余部分仍保持较高精度。这样做可以减少显存占用和带宽压力,从而提升推理速度。
第二项是 DFlash 推测解码。传统推测解码通常先由较小模型预测少量 token,再由大模型并行验证。DFlash 则改为一次性提出整块 token,再交由主模型验证。在代码任务中,主模型平均每轮可接受 8 个候选 token 中的 6.3 个。
小米与推理合作方 TileRT 还对执行流程做了优化。其思路是让计算流程持续驻留在 GPU 内部,减少算子逐次启动带来的额外开销。
主流模型速度对比
按文中援引的 Artificial Analysis 数据,当前主流通用模型的输出速度普遍低于这一水平。报道提到,GPT 系列常见交互速度约为每秒 68 个 token,Claude Opus 4.6 约为每秒 71 个 token,Gemini Flash 约为每秒 192 个 token。
报道还提到,Cerebras 和 Groq 等公司长期围绕高吞吐推理布局,并依赖自研芯片架构提升速度。相比之下,小米此次是在通用 GPU 节点上完成这一结果,强调的是软件优化带来的性能提升。
6月9日启动限量试用
小米表示,UltraSpeed 加速的是原版 MiMo-V2.5-Pro,而不是简化后的轻量模型。该模型此前在代码基准测试中的表现,被描述为接近 Claude Opus 水平。
公司计划在 6 月 9 日至 6 月 23 日开放限量 API 试用,采用申请制,企业用户和专业开发者将获得优先资格。定价方面,UltraSpeed 版本价格约为标准 MiMo 费率的 3 倍,但生成速度约可提升至 10 倍。
补充信息:小米称,采用 FP4 与 DFlash 的检查点模型已在 Hugging Face 开源,供社区测试。