语音模型也能freestyle!阿里新模型可定制角色、模拟背景音
阿里发布Fun-CosyVoice3.5和Fun-AudioGen-VD语音模型,支持freestyle定制角色、模拟背景音,适用于有声书、游戏等场景,性能超越GPT-4o-mini-tts!
今日,阿里发布两款语音新模型,基于参考音频的声音克隆模型Fun-CosyVoice3.5、无参考音频的音色设计模型Fun-AudioGen-VD。

据介绍,两款模型均引入了强大的“指令遵循”能力,自由控制声音的情感、语速、场景等。
其可用freestyle(自由风格模式)定制角色,适用于有声书、游戏、客服、播客、教育、直播等多个场景。
值得注意的是,两款模型在同尺寸模型的基准评测中斩获多项SOTA。
在Seed-TTS基准测试的中文“困难案例”指标中,Fun-CosyVoice3.5表现抢眼,词错误率(Word Error Rate,WER)和说话人相似度(Speaker Similarity,SSIM)均为最佳。
同时,因为优化了“困难案例”的发音,生僻字句错率由15.2%降低到5.3%。

其中,Fun-CosyVoice3.5支持freestyle指令控制,解决了传统克隆模型只会模仿不能指定角色的痛点。
Fun-AudioGen-VD专注“从无到有”的音色设计。在指令遵循能力和可控性的Instruct-TTS基准测试中超过gemini2.5-pro和gpt-4o-mini-tts。

该模型不仅能根据描述定制音色和情感,还能同步模拟复杂的听觉环境,实现“人物+场景”的一体化。
在强化学习中,两款模型通过使用DiffRO和GRPO,增加了时长和韵律多通道的奖励。
此外,Fun-CosyVoice3.5所用的tokenizer帧率减半,提高训练效率,且首包延迟降低35%,大幅提升了实时交互体验。
即日起,用户可在阿里云百炼调用这两款最新模型。
- 1图个好回忆:谁能想到,虐了玩家30年的“大菠萝”,竟源于一座1177米的高山?
- 2AI又进化了,连MMO《金瓶梅》都有了?还把国内大佬都融了!
- 3Nexon全新暗黑奇幻MMORPG《Embers of the Uncrowned》首曝
- 4虚幻5打造!MMORPG新作《宙斯:傲慢之神》公开截图
- 5不被看好的《二重螺旋》,用半年时间做成二游传奇?
- 6《棕色尘埃2》这款韩游,为何在国内这么火?除了涩还有什么魅力?
- 7异环开服三大最强毕业阵容!最佳队友&下位替代全解析,开服该练谁不用愁!
- 8诈骗团伙"拉黑"二次元头像用户:事多还穷 不具备杀猪价值
- 9玩家热议游戏人物体型身材:八尺夫人、春丽、黑百合上榜
- 10枪法也是法,弹道也是道!佛门高僧“反恐”20年,心中超度外挂玩家

