小米多模态大模型 MiMo-VL 开源，官方称多方面领先 Qwen2.5-VL-7B

2025-05-30 18:12:05 神评论

Xiaomi MiMo 官方公众号今日发文宣布，小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表示，其在图片、视频、语言的通用问答和理解推理等多个任务上，大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B，并且在 GUI Grounding 任务上比肩专用模型，为 Agent 时代而来。

MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时，在多模态推理任务上，仅用 7B 参数规模，在奥林匹克竞赛（OlympiadBench）和多个数学竞赛（MathVision、MathVerse）大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview，也超越闭源模型 GPT-4o。

在评估真实用户体验的内部大模型竞技场中，MiMo-VL-7B 超越 GPT-4o，成为开源模型第一。

其能够完成复杂图片推理和问答等任务，在长达 10 多步的 GUI 操作上，MiMo-VL-7B 也展示了不错的潜力，甚至能帮你加购小米 SU7 至心愿单。

其采用了高质量的预训练数据以及创新的混合在线强化学习算法（Mixed On-policy Reinforcement Learning, MORL）：

多阶段预训练：
收集、清洗、合成了高质量的预训练多模态数据，涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型，总计 2.4T tokens。通过分阶段调整不同类型数据的比例，强化长程多模态推理的能力。
混合在线强化学习：
混合文本推理、多模态感知 + 推理、RLHF 等反馈信号，并通过在线强化学习算法稳定加速训练，全方位提升模型推理、感知性能和用户体验。

【来源：IT之家】

关于,小米,MiMo-VL,小米,多模态大模型,MiMo-VL的新闻

17173 首页全新改版规划中！现向各位玩家征集真实使用意见，你的想法将直接影响新版页面设计～动动手指填写问卷，快来共创你心仪的页面布局吧！ 参与问卷