跻身全球第一梯队!京东开源JoyAI-Echo框架:解决长视频生成三大难题
京东开源JoyAI-Echo框架,解决长视频生成三大难题:角色稳定、声音一致、速度提升7.5倍!跻身全球第一梯队,智能导演助理支持自然语言修改,开源可二次开发。
今日,京东宣布推出JoyAI-Echo长音视频生成框架,号称解决行业长期头疼的长视频生成三大难题:角色易崩、声音乱变、生成缓慢。
目前,JoyAI-Echo代码与权重已全部开源,项目页和GitHub代码仓库均已上线,开发者和创作者可进行体验和二次开发。
京东表示,JoyAI-Echo的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。

据了解,JoyAI-Echo内置跨模态音视频记忆库,可在多镜头生成过程中持续保存并调用角色外观特征和说话人音色信息。
实测结果显示,在长达5分钟的视频中,角色身份、视觉形象和声音音色均能保持高度一致,避免出现“同一个人演着演着变成另一个人”的问题。
同时,京东提出记忆驱动后训练流程,结合SFT、跨模态RLHF和Distribution Matching Distillation(DMD)技术,在提升生成质量的同时实现推理加速。

其中,仅DMD技术就带来约7.5倍速度提升,让长视频生成效率大幅提高。
此外,JoyAI-Echo还加入智能“导演助理”Director Agent,用户只需用自然语言描述需求,它就能自动拆分剧本、角色、场景和镜头。

如果生成结果中有局部镜头不满意,用户也可以直接通过对话提出修改,系统只需重新生成有问题的部分,不必整条视频重来。
为满足专业内容生产需求,JoyAI-Echo还配套实时超分模块,支持736 x 1280提升至1152×1920,以及736×1280提升至1472×2560两档分辨率。
通过单步超分,JoyAI-Echo可生成高分辨率视频和精细化音频,即便在流式延迟约束下,也能保持稳定高清表现。
评测方面,研究团队基于100个故事、3000个镜头构建了专门的长音视频生成评测集,对JoyAI-Echo进行多维度测试。
结果显示,JoyAI-Echo在跨镜头一致性、视频质量、文本一致性和语音内容准确率等核心指标上均取得领先表现,其中语音内容准确率达到0.8646,领先行业其他同类模型。

- 1《诡秘之主》PV上线,展示BOSS对战,灰雾测试正式定档
- 2死神VS火影,《JUMP全明星乱斗》开服,九大顶流IP集结
- 3经营地府《百夜地府》首曝预告,收录经典神话,金箍棒彩蛋亮相
- 4《历史模拟器:崇祯》6月25日本体转为免费游玩,创意工坊同步开启测试
- 5《天堂2:盟约》开服十大焚诀排行榜,不注意可能血亏上千!
- 62026 ChinaJoy 全品类参展亮点汇总
- 7《怪兽幻想》首支预告片公开,国产“怪猎+动森”融合之作亮相
- 8《绝地求生》开发商MOBA新游,《Project ZETA》限时公测开启
- 9腾讯《三体》衍生剧官宣,原版主创全回归,填补原著三年剧情空白
- 10《闪之轨迹:北方战役》今日公测,Falcom监修,历代角色齐聚

