z-image(造相)团队正式对外发布z-image标准版开源模型。作为z-image系列面向社区的核心基础模型,该版本为未经蒸馏的完整架构,在图像生成质量、风格适配广度以及二次开发兼容性等方面均展现出更强实力,致力于为开发者提供一个高性能、高自由度的图像生成底层平台,充分释放个性化定制与精细化微调的潜力。

Z-Image标准版采用原生完整结构,相较轻量蒸馏版本Z-Image-Turbo具备更优表现:全面支持CFG引导机制与负向提示词调控,有效缓解“千人一面”现象,显著提升输出结果的多样性。模型基于原创S3-DiT网络架构构建,训练流程涵盖预训练、监督微调(SFT)及强化学习三阶段,目前正处于SFT优化阶段。

核心亮点
丰富的美学表达与风格覆盖能力
Z-Image在维持高水平照片级真实感的基础上,兼顾更广泛的艺术化表达空间。区别于通过强化学习深度聚焦写实渲染的Turbo版本,标准版保留了更强的风格泛化能力,尤其适用于动漫创作、数字绘画、商业插画等强调创意表现的场景,满足多元视觉风格需求。
专为社区定制优化的可微调基座
作为非蒸馏的基础生成模型,Z-Image天然适配各类社区主流微调范式(如LoRA、ControlNet等),大幅降低本地化适配与功能扩展门槛。
-
原生CFG全流程支持:
不同于多数跳过分类器自由引导路径的蒸馏模型,本版本完整保留CFG计算链路,实现对提示词意图的精准响应与强可控性
-
下游训练鲁棒性强:
得益于更均衡的内部表征分布与参数多样性,模型在新增任务或概念学习过程中收敛更稳定,优于低步数压缩变体
卓越的生成差异化能力
Z-Image重点突破当前主流生成模型普遍存在的同质化瓶颈:
-
彻底规避“重复面孔”问题:
同一提示下,不同随机种子可稳定产出差异显著的人脸结构与画面构图,确保每次生成的独特价值
-
多人物场景智能解耦:
面对含多个主体的复杂提示,模型能自主区分并赋予各角色独立外观特征,杜绝高速推理模型中常见的“批量复制”效应
强化型Negative Prompt响应机制
Z-Image对负面提示词具备高度敏感性与语义理解力。开发者可通过结构化设计的Negative Prompt,高效屏蔽干扰元素,实现更高精度的内容边界控制与生成一致性管理。
在线体验入口:https://www.php.cn/link/14c5e9d72a15c39f4729cbfe5e018c66 模型获取地址:https://www.php.cn/link/676c0c9be43fd984c92b0ecfdab3c0d9
源码仓库地址:点击下载










