网易发布 Confucius4-TTS:业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型,3 秒音频即可克隆音色
网易发布Confucius4-TTS开源模型:3秒音频克隆音色,支持14种语言跨语种无口音,无需参考文本,准确度97%。零样本语音合成,数字人配音利器,GitHub全量开源。
6 月 23 日消息,网易有道今日发文,宣布推出“子曰 4.0”TTS 语音合成引擎 ——Confucius4-TTS。
据网易有道官方介绍,Confucius4-TTS 是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。

在技术性能方面,Confucius4-TTS 实现了零样本语音克隆能力。用户仅需提供 3 秒音频素材,无需参考文本与前期训练,模型即可完成音色克隆,克隆音色与原声相似度超过 85%,克隆任务准确度达 97%。
据介绍,该模型全面支持中文、英语、西班牙语、法语、德语、韩语、泰语、越南语等 14 种语言的自然流利表达。其核心突破在于解决了语音合成领域长期存在的跨语种口音问题 —— 用户上传中文音频,AI 即可用该音色流利说出日语、英语等外语,发音地道自然。
在情感表达方面,Confucius4-TTS 区别于传统 TTS 依赖文本标签控制情感的粗放方式,创新性地支持音频 Prompt 情感克隆迁移。系统可自动提取参考音频中的情感特征,精准复刻其语调、韵律,实现跨语种无损迁移。
在底层架构上,Confucius4-TTS 实现了全面革新。相较于初代 EmotiVoice 采用的 HiFi-GAN 声码器和 Speaker ID 查表方案,Confucius4-TTS 引入了 GPT 式语义大模型作为主干,搭配基于 SSL 预训练特征和 ECAPA-TDNN 的可学习说话人编码器,并采用 Flow Matching 流匹配生成框架,不再沿用传统声码器方案。
网易有道已将 Confucius4-TTS 全量开源,采用 Apache 开源协议,面向全球开发者开放完整模型权重和配套工具链,商用无限制。开发者可下载 54GB 完整资源包进行本地离线部署,满足数据安全与定制化需求。
在应用场景方面,Confucius4-TTS 可为多语种内容生成、数字人配音、跨语言教学、短剧出海及全球化传播提供低门槛的国产化技术底座。网易有道表示,希望通过全量开源 Confucius4-TTS,降低语音克隆和情感合成的门槛,让每一个声音都能跨越语言的边界。
该模型已在 GitHub 面向全球开发者开源。附官方地址:https://github.com/netease-youdao/Confucius4-TTS
- 1玩家用AI做了盗版《魔兽世界》经典版?网页免费玩!
- 2灵犀互娱UE5“3A 级制作”SLG《三国志》招聘信息曝光
- 3阿里游戏业务拟整体出售,估值区间曝光,巨人三七等洽谈收购
- 4NEXON 公开新《跑跑卡丁车》前导网站
- 5《天使之恋Online国际版》6月24日全球上市 今日开放预下载与角色预创建
- 6腾讯重整全球投资布局,洽谈退出日游股权,亏损也将出让股份
- 7《诡秘之主》研发细节公开,制作人为前网易《逆水寒》负责人
- 8洛奇M台服上线,龙之谷续作发售,2026年7月网游新作盘点
- 9MMORPG端游《仙境传说Zero: 全球版》公开二测日期
- 10《RO 仙境传说 3》公开 LOGO 设计理念 以世界观「时序之庭」为核心主题

