主页 业界 要闻 快讯 热点 注册登陆
注册登陆
主页
09 06

小米发布MiMo加速版,推理速度升至千词元级

分类:业界 | 时间:2026-06-09 06:23 | 关注

  小米发布了 MiMo-V2.5-Pro-UltraSpeed,这是其万亿参数旗舰模型的加速推理版本。公司称,新版本在一台由 8 张通用 GPU 组成的标准服务器上,推理速度已超过每秒 1000 个 token,演示峰值接近 1200 个 token。

   这次更新的重点不在新模型本身,而在推理效率。相比依赖定制芯片的方案,小米此次强调使用的是通用硬件,并通过软件和模型侧优化实现提速。这意味着,高速部署大模型的门槛可能进一步下降。

   两项技术推动提速

   小米此次主要采用了两项技术。第一项是 FP4 量化。公司将模型中占主要参数规模的专家层压缩至 4-bit 精度,其余部分仍保持较高精度。这样做可以减少显存占用和带宽压力,从而提升推理速度。

   第二项是 DFlash 推测解码。传统推测解码通常先由较小模型预测少量 token,再由大模型并行验证。DFlash 则改为一次性提出整块 token,再交由主模型验证。在代码任务中,主模型平均每轮可接受 8 个候选 token 中的 6.3 个。

   小米与推理合作方 TileRT 还对执行流程做了优化。其思路是让计算流程持续驻留在 GPU 内部,减少算子逐次启动带来的额外开销。

   主流模型速度对比

   按文中援引的 Artificial Analysis 数据,当前主流通用模型的输出速度普遍低于这一水平。报道提到,GPT 系列常见交互速度约为每秒 68 个 token,Claude Opus 4.6 约为每秒 71 个 token,Gemini Flash 约为每秒 192 个 token。

   报道还提到,Cerebras 和 Groq 等公司长期围绕高吞吐推理布局,并依赖自研芯片架构提升速度。相比之下,小米此次是在通用 GPU 节点上完成这一结果,强调的是软件优化带来的性能提升。

   6月9日启动限量试用

   小米表示,UltraSpeed 加速的是原版 MiMo-V2.5-Pro,而不是简化后的轻量模型。该模型此前在代码基准测试中的表现,被描述为接近 Claude Opus 水平。

   公司计划在 6 月 9 日至 6 月 23 日开放限量 API 试用,采用申请制,企业用户和专业开发者将获得优先资格。定价方面,UltraSpeed 版本价格约为标准 MiMo 费率的 3 倍,但生成速度约可提升至 10 倍。

   补充信息:小米称,采用 FP4 与 DFlash 的检查点模型已在 Hugging Face 开源,供社区测试。

温馨提示:内容仅供参考
最新
a16z在首尔设点,亚洲扩张先押注加密业务 外媒:SOL重回70美元后反弹能否延续 比特币重回6.5万美元,油价回落带动风险资产反弹 伊朗初步和平协议推动美债收益率回落 特朗普关联稳定币USD1现身白宫UFC奖金发放 印度首席经济顾问称AI股票估值现泡沫 JUP单日升逾10%,Solana生态回暖带动交易活跃 Ripple高管称银行寻求更便捷接入加密服务 美联储议息周来临,比特币关注6月数据窗口
推荐
西西泰克取得发动机缸套料架专利,提高发动机缸套的安装和转运的效率 美联储“褐皮书”:制造业活动小幅下降 企业招聘保持谨慎 德明通讯取得电池快速更换装置专利,实现快速更换电池的同时实现电池的防水 华锦股份股价小幅上扬 石油行业板块表现受关注 广济药业股价小幅下跌 子公司收入虚增遭处罚 融通行业景气混合A近一周上涨0.40% 上市公司韧性评价|新力金融总分37.07分,居行业第71位 国英边缘技术有限公司成立,注册资本10000万人民币 诺尔丰肥业取得防结块水溶肥加工用原料滚筒筛专利,便于对原料进行投放和下料收集
2013-2029 - 南京万泓信息- wainiang.com - 版权所有 - 网站首页