小米罗福莉谈 MiMo API 降价：原始推理成本远低于行业平均水平，基本可以维持收支平衡

2026-05-28 10:01:00 神评论

17173 新闻导语

小米MiMo API永久降价最高99%！罗福莉揭秘：原始推理成本远低于行业，降价后仍能收支平衡，技术优化驱动良性循环，点击了解详情。

感谢网友 DayDayUp、Domado 的线索投递！

5 月 28 日消息，小米 MiMo 官方昨日宣布，小米 MiMo-V2.5 系列 API 永久降价，相比原始 API 定价，新定价最高降幅可达 99%，且不再区分上下文窗口长度。

小米 MiMo 负责人罗福莉随后在 X 平台发文，谈到了 MiMo API 降价的技术原因，附罗福莉原文翻译如下：

MiMo API 价格下调的背后：
最高降幅可达 99%，针对的是输入（缓存命中）。核心原因在于我们的推理框架现在支持针对 SWA 的分层 KV 缓存优化。生产推理引擎测试表明，该优化将缓存的 Token 容量提升了 5 倍，相当于降低了 80% 的缓存成本。再结合 Hybrid 模型中多个 Full Attention 模块之间的缓存读取重叠（Cache Read Overlap），实际成本得到了进一步降低。
输入（未命中缓存）和输出的价格也降低了约 60% 至 80%。这主要得益于模型架构带来的极致 1:7 Full:SWA 稀疏比（70 层的 MiMo-V2.5-Pro 的 prefill 计算量大致相当于一个 10 层的 GQA 模型）。这使得我们原始推理成本远低于行业平均水平，在定价上自然留出了 2 到 3 倍的利润空间。此次价格调整，只是我们决定把这些结构性成本优势直接让利给开发者。
在新的、更低的 API 价格之下，我们的生产推理引擎已接近满负载运行，并且我们基本上仍然可以维持收支平衡（we can still essentially break even）。我们此前曾建议大语言模型（LLM）公司不要“盲目降价”，正是因为很少有模型架构和推理优化能力，能够在 API 大幅降价后仍避免亏损。如果未来出现更多能够节省计算量和 KV 缓存的架构，并配合更好的推理基础设施（Infra）来降低 API 成本，这将在行业内形成一个绝佳的良性循环。
更重要的是，价格合理、性能优异的模型 API 将驱动真实、持续且大规模的推理需求。这种上游需求拉动了整个 AI 基础设施链的发展 —— 包括芯片、服务器、光模块、PCB、液冷、电力、储能和数据中心 —— 并作为 AI 硬件系统性重估的战略支点。从长远来看，这为训练和推理管线注入了更廉价、更易获取的算力，从而加速了全球通用人工智能（AGI）在多个地区和技术路线上的并行演进。
更多技术细节，我们后续会发布一篇详细的 Blog。