性能对标Gemini 2.5 Pro!蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0
蚂蚁开源Ming-Flash-Omni 2.0全模态大模型,性能超越Gemini 2.5 Pro!支持语音、音效、音乐同轨生成,视觉语言理解领先。点击了解开源详情与在线体验!
2月11日消息 今日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。
在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。
Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。
用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。
模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。

蚂蚁集团在全模态方向已持续投入多年,Ming-Omni 系列迭代三个版本,此次将 Ming-Flash-Omni 2.0 开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。
据了解,Ming-Flash-Omni 2.0基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标全面优化。
视觉方面,融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力;
音频方面,实现语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力;
图像方面,增强复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。
目前,Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。
- 1腾讯财报中的“隐形人”,流水还不如同期贡献一周的《洛克王国:世界》!
- 2《暗黑破坏神2:重制版》限时优惠!228本体+DLC带回家
- 372岁成龙回归《尖峰时刻4》!导演确认要在中国拍
- 4韩国MMO《Raven 2》开启新服预约,全新职业将于周年庆上线
- 5经典科幻 MMORPG《决战》共创测试服于今日正式开启
- 6亚马逊《指环王》MMO正式宣告夭折 千人团队刚组建就被解散
- 73D成女幻想即时策略RPG,《镭明闪击》全平台公测开启!
- 8《幻世录重制版》Steam页面与官方网站今日公开,新PV曝光角色转职与战技
- 9暴雪:加200%伤害应该没事吧?中国玩家:五只熊,安排
- 10《燕云十六声》新区域“蓬山”爆料!限时6元抢购熊猫人皮肤

