1月14日,智谱今日宣布,联合华为正式开源新一代图像生成模型 GLM-Image。该模型基于昇腾 Atlas 800T A2 设备与昇思 MindSpore AI 框架,完成从数据预处理到大规模训练的全流程构建,成为首个在国产芯片上完成全程训练的 SOTA 多模态模型,验证了国产全栈算力底座训练前沿模型的可行性。
在模型架构上,GLM-Image 采用“自回归 + 扩散解码器”混合架构,将语言模型的指令理解能力与扩散模型的细节生成能力结合,重点面向知识密集、逻辑复杂的图文生成场景,如海报、PPT、科普插画等,探索以 Nano Banana Pro 为代表的新一代“知识 + 推理”的认知型生成模型路径。
在能力表现上,GLM-Image 在CVTG-2K(复杂视觉文本生成)与 LongText-Bench(长文本渲染)榜单中取得开源第一,在汉字生成与复杂文字嵌入方面达到开源 SOTA 水平。通过改进 Tokenizer 策略,模型可自适应多种分辨率,原生支持 1024×1024 至 2048×2048 任意比例图像生成,无需重新训练。
在应用与成本层面,GLM-Image 面向科普插画、多格图画、电商与社交媒体封面、商业海报及写实摄影等多种场景,兼顾风格一致性与文字准确率;API 模式下单张图片生成成本约 0.1 元,并将持续进行速度优化。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。