新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

性能对标Gemini 2.5 Pro！蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0

2026-02-11 12:01:49 神评论

17173 新闻导语

蚂蚁开源Ming-Flash-Omni 2.0全模态大模型，性能超越Gemini 2.5 Pro！支持语音、音效、音乐同轨生成，视觉语言理解领先。点击了解开源详情与在线体验！

2月11日消息今日，蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。

在多项公开基准测试中，该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出，部分指标超越 Gemini 2.5 Pro，成为开源全模态大模型性能新标杆。

Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型，可在同一条音轨中同时生成语音、环境音效与音乐。

用户只需用自然语言下指令，即可对音色、语速、语调、音量、情绪与方言等进行精细控制。

模型在推理阶段实现了 3.1Hz 的极低推理帧率，实现了分钟级长音频的实时高保真生成，在推理效率与成本控制上保持业界领先。

蚂蚁集团在全模态方向已持续投入多年，Ming-Omni 系列迭代三个版本，此次将 Ming-Flash-Omni 2.0 开源，意味着其核心能力以“可复用底座”的形式对外释放，为端到端多模态应用开发提供统一能力入口。

据了解，Ming-Flash-Omni 2.0基于 Ling-2.0 架构（MoE，100B-A6B）训练，围绕“看得更准、听得更细、生成更稳”三大目标全面优化。

视觉方面，融合亿级细粒度数据与难例训练策略，显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力；

音频方面，实现语音、音效、音乐同轨生成，支持自然语言精细控制音色、语速、情绪等参数，并具备零样本音色克隆与定制能力；

图像方面，增强复杂编辑的稳定性，支持光影调整、场景替换、人物姿态优化及一键修图等功能，在动态场景中仍保持画面连贯与细节真实。

目前，Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。

【来源：快科技】

关于Ming-Flash-Omni 2.0,全模态大模型,开源,Gemini 2.5 Pro,视觉语言理解,音频生成,图像生成,Ling-2.0,蚂蚁集团,Hugging Face的新闻

今日热点

7月游戏版号公开！《梦幻西游》IP新作等193款游戏过审

《古剑》41分钟实机演示首曝《魔兽世界》12.1奖励全解析

24年经典MMO出续作，这次终于敢说不换皮了？

《终末地》云游戏不限量测试《魔兽世界》国服整治公告

热门测试游戏

热门新闻排行

Wan网页游戏**玩