小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡
小米MiMo API永久降价最高99%!罗福莉揭秘:原始推理成本远低于行业,降价后仍能收支平衡,技术优化驱动良性循环,点击了解详情。
5 月 28 日消息,小米 MiMo 官方昨日宣布,小米 MiMo-V2.5 系列 API 永久降价,相比原始 API 定价,新定价最高降幅可达 99%,且不再区分上下文窗口长度。

小米 MiMo 负责人罗福莉随后在 X 平台发文,谈到了 MiMo API 降价的技术原因,附罗福莉原文翻译如下:
MiMo API 价格下调的背后:
最高降幅可达 99%,针对的是输入(缓存命中)。核心原因在于我们的推理框架现在支持针对 SWA 的分层 KV 缓存优化。生产推理引擎测试表明,该优化将缓存的 Token 容量提升了 5 倍,相当于降低了 80% 的缓存成本。再结合 Hybrid 模型中多个 Full Attention 模块之间的缓存读取重叠(Cache Read Overlap),实际成本得到了进一步降低。
输入(未命中缓存)和输出的价格也降低了约 60% 至 80%。这主要得益于模型架构带来的极致 1:7 Full:SWA 稀疏比(70 层的 MiMo-V2.5-Pro 的 prefill 计算量大致相当于一个 10 层的 GQA 模型)。这使得我们原始推理成本远低于行业平均水平,在定价上自然留出了 2 到 3 倍的利润空间。此次价格调整,只是我们决定把这些结构性成本优势直接让利给开发者。
在新的、更低的 API 价格之下,我们的生产推理引擎已接近满负载运行,并且我们基本上仍然可以维持收支平衡(we can still essentially break even)。我们此前曾建议大语言模型(LLM)公司不要“盲目降价”,正是因为很少有模型架构和推理优化能力,能够在 API 大幅降价后仍避免亏损。如果未来出现更多能够节省计算量和 KV 缓存的架构,并配合更好的推理基础设施(Infra)来降低 API 成本,这将在行业内形成一个绝佳的良性循环。
更重要的是,价格合理、性能优异的模型 API 将驱动真实、持续且大规模的推理需求。这种上游需求拉动了整个 AI 基础设施链的发展 —— 包括芯片、服务器、光模块、PCB、液冷、电力、储能和数据中心 —— 并作为 AI 硬件系统性重估的战略支点。从长远来看,这为训练和推理管线注入了更廉价、更易获取的算力,从而加速了全球通用人工智能(AGI)在多个地区和技术路线上的并行演进。
更多技术细节,我们后续会发布一篇详细的 Blog。


