百度文心开源文生图模型 ERNIE-Image:消费级显卡搞定顶级渲染、高密度文本绘图
百度开源文生图模型ERNIE-Image:仅8B参数,消费级显卡24GB显存即可生成媲美顶级商业模型的超真实图像,支持多语言文字渲染和复杂指令,已在Hugging Face开源。
4 月 15 日消息,百度文心大模型团队今日宣布正式开源文生图模型 ERNIE-Image。据该团队介绍,该模型参数量仅 8B,24GB 显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。
当前,ERNIE-Image 的模型权重、推理代码已在 Hugging Face 全部开源,遵循 Apache2.0 协议,已经支持并上线 ComfyUI Workflow,同时联合 Unsloth 推出 GGUF 量化方案。
附官方详细介绍如下:
ERNIE-Image 是由百度文心大模型团队开发的一款开源文生图模型。它基于单流 Diffusion Transformer(DiT)架构,并配有一个轻量级 Prompt Enhancer,用于将简短输入扩展为更丰富、更结构化的描述。在仅有 8B DiT 参数规模的前提下,达到了开源文生图模型中的领先水平。
整体来看,它在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。同时,模型也覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格。
经过电影网、凤凰网、蜻蜓 FM、瑛麒动漫、蜂鸟 AI 等 30 多个知名企业、社区和创作平台,20 位艺术创作设计师为期两周的内测与反馈,今天,我们正式开源 ERNIE-Image 模型,参数量仅 8B,24GB 显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。
01.重新定义消费级开源文生图边界在指令遵循、文字渲染能力上,ERNIE-Image 从容驾驭复杂细节约束、多主体关系和知识密集型描述;更在中英日韩多语言生成中实现了字形清晰与笔画精准,无论是海报排版、学术图表的严谨逻辑,还是漫画分镜的叙事张力,皆能保持完美的布局组织与画面秩序,这两项能力在开源模型中均排名第一。
以小搏大,消费级可跑的架构设计,仅 8B 参数在多项 benchmark 上全面超越同类开源模型,媲美商用模型诸如 NanoBanana 系列。极致的参数效率优化,将高精度生成的门槛降至 24GB VRAM 的消费级 GPU 即可流畅运行,显著降低研究与部署门槛,打造每一位创作者触手可及的开源工具。
在风格表现上,ERNIE-Image 风格覆盖广,创意边界宽,支持写实摄影与风格化视觉表达,包括动漫、二次元、电影感胶片、分镜截图、老照片等多元风格,尤其在角色一致性和情绪表达上表现突出。
当前,ERNIE-Image 的模型权重、推理代码已在 Hugging Face 全部开源,遵循 Apache2.0 协议,已经支持并上线 ComfyUI Workflow,同时联合 Unsloth 推出 GGUF 量化方案,欢迎大家使用体验,尽情创作!
02.国际基准通杀,开源全面 SOTA我们在多个公开的国际基准上对 ERNIE-Image 进行了全面评估,包括用于通用图像生成的 GenEval、OneIG(中英文),以及用于复杂指令与文字渲染的 LongText-Bench。
评估结果表明,在所有开源模型中,ERNIE-Image 的综合表现处于领先位置,展现出其在通用图像生成、双语理解、复杂指令执行等各类任务中的强大能力。尤为突出的是,在文字渲染能力上,ERNIE-Image 取得了开源模型的 SOTA 效果,与 NanoBanana 等商业闭源模型同处第一梯队。
03.用文字创造画面 Showtime
- 1网游时光机:被称为“动作之王”的网游,坚挺了14年,依旧还没有“凉”透!
- 2美女主播兔娘探店24小时成人店:我很好奇!
- 3《天堂:经典版》爆火带动全系列复苏,全新大型更新在4月22日
- 4RO系列MMO新作《RO仙境传说:世界之旅》开启东南亚地区预约
- 5日本绅士游戏制作人:做成人游戏就是要大胆,不要怕审核
- 6《英雄联盟2》重磅曝光!辅助位将迎来重大变革
- 7150种魔物!网石捉宠网游《魔御:STAR DIVE》今日上线
- 8大雷黑丝泳装一步到位!《碧蓝航线》联动3D区劳模
- 9《冒险岛怀旧服》国服突然官宣!公告解读!我们究竟什么时候可以玩上?
- 10腾讯《怪物猎人:旅人》热度爆了!全球预约突破500万












