美团发布开源原生多模态大模型 LongCat-Next,让视觉和语音成为 AI 的母语
美团开源原生多模态大模型LongCat-Next,统一图像、语音、文本为离散Token,实现多模态AI统一建模。性能超越Qwen3等模型,支持语音克隆与低延迟生成。
3 月 27 日消息,美团今日发布原生多模态大模型 LongCat-Next,将图像、语音与文本统一映射为同源的离散 Token,使模型从学习连续空间的映射,转向学习离散 ID 之间的关系结构,并通过纯粹的下一个 Token 预测(Next Token Prediction, NTP)范式,以一种统一的方式建模各种物理信号。

美团还宣布把研究思路的核心 —— LongCat-Next 模型和它的离散分词器全部开源,希望更多开发者能基于它,构建真正能感知、理解并作用于真实世界的 AI。
美团构建了 DiNA(Discrete Native Autoregressive)离散原生自回归架构。其核心就是将所有模态统一为离散 Token,并用同一个自回归模型进行建模。DiNA 打破了模态间的隔阂。它通过极简的下一 Token 预测(NTP)范式,将图像、声音和文字统一转化为同源的离散 Token。
简单而言,美团把文字、图像、语音都变成同一种东西 —— 离散 Token。无论读文字、看图片还是听声音,对 AI 来说都是同一件事:预测下一个 Token 是什么。
这种统一设计,让模型在训练时更稳定,部署时更轻量。美团用 LongCat-Flash-Lite MoE(68.5B 总参数,3B 激活参数)作为基座,在这个框架基础上训练了 LongCat-Next。
实验表明,DiNA 的 MoE 路由在训练中逐渐出现模态专精化,激活专家数量相比纯语言设置有所增加,模型正在用更大容量支撑能力扩展。

根据美团官方测试,LongCat-Next 在视觉理解、图像生成、音频、智能体等多个维度上,以一套离散原生框架展现出与多模专用模型相当甚至领先的性能。

LongCat-Next 在 OmniDocBench(学术论文、财报、行政表格)上的表现(0.152 / 0.226)不仅超越 Qwen3-Omni,还超过了专用视觉模型 Qwen3-VL。
消融实验对比中,LongCat-Next 统一模型的理解损失仅比纯理解模型高 0.006,而生成损失比纯生成模型低 0.02。在图像生成上,LongCat-Next 在 LongText-Bench(英文 93.15);在图像理解上,MathVista(83.1)达到领先水平。
在纯文本任务上,LongCat-Next 的 MMLU-Pro(77.02)和 C-Eval(86.80)表现领先,证明原生多模态训练未削弱语言核心能力。在工具调用上,τ²-Bench 零售场景(73.68)大幅领先 Qwen3-Next-80B-A3B-Instruct(57.3);在代码能力上,SWE-Bench(43.0)超越同类模型。
在音频领域,TTS 任务上,SeedTTS 的中文和英文 WER 分别低至 1.90 和 1.89;音频理解上,MMAU(76.40)、TUT2017(43.09)均达到先进水平。更重要的是,模型支持低延迟的并行文本语音生成与可定制的语音克隆,让语音交互更自然、更个性化。
附 LongCat-Next 模型和 dNaViT 分词器开源地址如下:
https://github.com/meituan-longcat/LongCat-Next
- 1《星球大战》需要像修复前传三部曲那样修正续集
- 2两款Steam游戏创意撞车,仅一款跻身畅销榜
- 3喜欢《红色沙漠》?不妨回去重温《Skyrim》
- 4据传《塞尔达传说:时之笛 3D》Switch 2重制版将于今年圣诞节推出,全新《星际火狐大冒险》今夏登场
- 5韩国涩游《棕色尘埃2》新皮肤PV发布,尻太大外网都要打码
- 6紧身盔甲大白腿!玩家分享《红色沙漠》性感美女合集
- 7停运前夕仍推大更!MMORPG《新世界》兑现承诺,多项优化上线
- 8多模式打个痛快!曝《坦克世界:HEAT》最新地图与玩法
- 9吊带黑丝太诱人!国外美女COS《猎天使魔女》贝姐
- 10你可能不玩游戏,但你一定认识这些游戏角色!最后一个特别洗脑!

