新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

语音模型也能freestyle！阿里新模型可定制角色、模拟背景音

2026-03-02 18:01:32 神评论

17173 新闻导语

阿里发布Fun-CosyVoice3.5和Fun-AudioGen-VD语音模型，支持freestyle定制角色、模拟背景音，适用于有声书、游戏等场景，性能超越GPT-4o-mini-tts！

今日，阿里发布两款语音新模型，基于参考音频的声音克隆模型Fun-CosyVoice3.5、无参考音频的音色设计模型Fun-AudioGen-VD。

据介绍，两款模型均引入了强大的“指令遵循”能力，自由控制声音的情感、语速、场景等。

其可用freestyle（自由风格模式）定制角色，适用于有声书、游戏、客服、播客、教育、直播等多个场景。

值得注意的是，两款模型在同尺寸模型的基准评测中斩获多项SOTA。

在Seed-TTS基准测试的中文“困难案例”指标中，Fun-CosyVoice3.5表现抢眼，词错误率(Word Error Rate,WER)和说话人相似度(Speaker Similarity,SSIM)均为最佳。

同时，因为优化了“困难案例”的发音，生僻字句错率由15.2%降低到5.3%。

其中，Fun-CosyVoice3.5支持freestyle指令控制，解决了传统克隆模型只会模仿不能指定角色的痛点。

Fun-AudioGen-VD专注“从无到有”的音色设计。在指令遵循能力和可控性的Instruct-TTS基准测试中超过gemini2.5-pro和gpt-4o-mini-tts。

该模型不仅能根据描述定制音色和情感，还能同步模拟复杂的听觉环境，实现“人物+场景”的一体化。

在强化学习中，两款模型通过使用DiffRO和GRPO，增加了时长和韵律多通道的奖励。

此外，Fun-CosyVoice3.5所用的tokenizer帧率减半，提高训练效率，且首包延迟降低35%，大幅提升了实时交互体验。

即日起，用户可在阿里云百炼调用这两款最新模型。

【来源：快科技】

关于语音模型,声音克隆,音色设计,指令遵循,freestyle,游戏,实时交互,角色定制,背景音模拟,阿里云百炼的新闻

今日热点

《冒险岛》怀旧服定档8月3日，确认永续运营模式

《崩坏：因缘精灵》进化测试定档7月9日《胜利女神》推出更新“WAVE TO YOU”

比《魔兽世界》还硬核的国产网游，想起了怀旧服

《永恒之塔2》航海玩法官宣《暗黑4》S14赛季7月1日上线

热门测试游戏

热门新闻排行

Wan网页游戏免费玩