今日,百度文心大模型团队宣布开源文生图模型ERNIE-Image,该模型参数量仅8B,能在24GB显存的消费级显卡上生成超真实、复杂的图像,媲美顶级商业模型。ERNIE-Image基于单流DiffusionTransformer架构,并配有轻量级PromptEnhancer,将简短输入扩展为更丰富的描述。模型在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,适合海报、漫画等需要控制能力的内容生产场景,并覆盖多种视觉风格。
ERNIE-Image的模型权重和推理代码已在HuggingFace开源,遵循Apache2.0协议,并已支持ComfyUIWorkflow。此外,百度联合Unsloth推出GGUF量化方案,进一步优化模型性能。在多个国际基准测试中,ERNIE-Image展现了其在通用图像生成、双语理解、复杂指令执行等任务中的领先能力,尤其在文字渲染能力上达到开源模型的SOTA效果。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。