小米发布 MiMo-V2.5-TTS / ASR 语音大模型:通过自然语言调度声音表现
小米发布MiMo-V2.5语音大模型,支持TTS/ASR全链路语音识别与合成,限时免费体验,提升AI语音交互精准度。
4 月 24 日消息,小米今日正式发布 MiMo-V2.5-TTS Series 与 MiMo-V2.5-ASR —— 一套面向 Agent 时代的全链路语音模型系列,覆盖识别与合成两大核心能力,让语音的输入与输出都可以被语言自由调度。

从官方介绍获悉,MiMo-V2.5-TTS Series 包含三款模型,现已登陆小米 MiMo 开放平台,并且限时免费。三者共享统一的风格指令遵循、音频标签控制与文本理解能力,让声音表现可以被语言精细调度,分别覆盖三种典型创作需求:
MiMo-V2.5-TTS:内置多款高质量精品音色,支持语速、情绪、语气等精细化控制,开箱即用,满足多场景表达。
MiMo-V2.5-TTS-VoiceDesign:一句话快速定义并生成全新音色,让音色创作更直观、更高效。
MiMo-V2.5-TTS-VoiceClone:少量样本高保真复刻目标音色,同时保持稳定的风格指令遵循与音频标签控制能力。
MiMo-V2.5-ASR 正式开源。模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂真实场景下的语音识别性能达到业界领先水平,为 Agent 提供清晰可靠的语音转写,确保每一次交互都建立在精准的理解之上。
MiMo-V2.5-TTS精准的风格指令遵循能力
从简短的单句指令,到一整份导演笔记,模型都能稳定理解并遵循,覆盖情绪、语气、语速、发声方式、语言风格等多个维度。指令不必写成结构化参数 —— 像给演员说戏一样把想要的感觉描述出来,模型就会落到对应的演绎之中。
对于一致性要求更高的场景 —— 有声剧、游戏 NPC、角色化对话等 —— 模型还支持导演剧本级的结构化输入:把人物、场景、详细指导分层描述,各层按自己的节奏独立更新、自由组合。这种分层既让角色的音色身份贯穿始终,也让每一句话的表演都能被单独控制。
灵活的音频标签控制能力除了段落级的自然语言指令,模型还支持行内音频标签,用于在文本特定位置精准控制情绪、状态或风格。标签支持中英双语和开放文本描述,允许在同一段文本中灵活混用。从简单的情感标注,到多标签叠加、细粒度排布的复杂编排,模型都能稳定表达,在标签的表达力和组合稳定性上均有出色表现。
丰富的文本理解能力即便没有任何 prompt,也没有任何标签 —— 就是一段最普通的文本 —— 模型也能直接表现出其中的韵律与情感。标点的停顿、句式的起伏,会被自然呈现;文本中暗藏的情感弧线,从平静叙述到激烈转折,模型能主动捕捉;甚至连字里行间透露出的说话人身份(年龄、气质、角色类型),也会自动落到声音里。换句话说:最朴素的纯文本,交给它,也能还你一段有血有肉的演绎。
MiMo-V2.5-ASR如果说 TTS 是在“输出”端让声音成为创作工具,那么 ASR 就是在“输入”端为这一切打开大门。在真实场景下,语种切换、背景噪声、说话人带着浓重的方言口音,在这样的环境里还能听清、听准,才是真正好用的语音识别。
MiMo-V2.5-ASR 作为全链路语音模型系列的听觉基座,在中英双语、中文方言、Code-Switch、强噪音、多说话人、高知识密度等复杂真实场景下均达到业界领先水平。它不只是为了把清晰的语音转成文字,更是让 Agent 在嘈杂的真实声音里,抓住每一个值得被理解的字词。
核心特点中文方言:支持吴语、粤语、闽南语、四川话等方言
英文复杂场景:在 AMI 等复杂英文场景 Open ASR Leaderboard 上达到领先水平
Code-Switch:中英 Code-Switch 语音转录自由流畅,无需预设语种标签
歌曲识别:中英文歌曲歌词识别,在伴奏与人声混合场景下保持高精度
强噪音场景:在高噪音、远场拾音等复杂声学环境中保持鲁棒识别
多说话人:支持多人交叉对话场景的准确转录,如会议场景
强知识关联:古诗词、专业术语、人名、地名等知识密集型内容的精准识别
原生标点:结合语音韵律与语义原生输出标点,转写结果即拿即用,无需后处理
性能表现MiMo-V2.5-ASR 在中英文通用、中文方言、Code-Switch 及歌词识别等多个维度上均取得当前最优或极具竞争力的结果,展现出跨场景、跨语种的稳定优势。以下为代表性评测结果:

MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone 均在 Xiaomi MiMo API 开放平台限时免费,同时,用户可以到 Xiaomi MiMo Studio 进行快速体验。
MiMo-V2.5-ASR 目前已开源模型权重和代码,支持开发者和研究者直接使用或二次开发。

参考
Xiaomi MiMo API 开放平台限时免费
Xiaomi MiMo Studio 快速体验
MiMo-V2.5-ASR Demo page
MiMo-V2.5-ASR 项目开源地址
MiMo-V2.5-ASR 权重开源地址
MiMo-V2.5-ASR Huggingface space:
- 1路边小怪也能爆出裁决?《热血传奇》一个BUG引发全服刷怪狂潮!
- 2《异环》刚上线官方社区就炸了?无审核变成R18区!
- 3波及百万玩家!《魔兽世界》6月22日起多国月卡上调 价格翻倍
- 4网传西山居要倒闭?西山居:严正声明辟谣!图片是伪造
- 524岁女孩下了一个特殊跑腿单 结果来了好多个骑手
- 6日本女声优参与成人游戏配音被发现 被迫彻底退圈
- 7多人求生游戏《流放者柯南》8周年大型免费更新,5月5日Steam平台上线
- 8《燕云十六声》青州地图今日上线,话术玩法进行全面升级
- 9韩国RPG《星之后裔:Knights of Veda》宣布6月26日停运,仅运营2年
- 10提前截胡网易!完美抢先拿下都市开放世界,年流水预估30亿

