中国的Z-Image取代Flux成为AI艺术之王——而你的土豆电脑也能运行它

CN
Decrypt
關注
2 小時前

阿里巴巴的通义实验室 Z-Image Turbo,一个拥有60亿参数的图像生成模型,上周发布,承诺简单明了:在你实际拥有的硬件上提供最先进的质量。

这个承诺正在迅速兑现。在发布几天后,开发者们已经以超过Flux2的速度推出了LoRAs——定制的微调适配版本,Flux2是黑森林实验室备受期待的继任者,继承了广受欢迎的Flux模型。

Z-Image的绝技是高效。尽管像Flux2这样的竞争对手最低需要24GB的显存(完整模型高达90GB),Z-Image在量化设置下只需6GB即可运行。

这相当于RTX 2060的水平——基本上是2019年的硬件。根据分辨率的不同,用户可以在短短30秒内生成图像。

对于爱好者和独立创作者来说,这扇门以前是锁着的。

AI艺术社区迅速对该模型表示赞赏。

“这就是SD3应该具备的,”用户Saruhey在全球最大的开源AI艺术工具库CivitAI上写道。“提示遵循得相当出色……一个可以立即处理文本的模型是颠覆性的。这东西的能力与Flux相比,甚至更强,简直是黑魔法。中国在AI领域遥遥领先。”

Z-Image Turbo自上周四以来已在Civitai上发布,并已获得超过1200条好评。作为对比,Flux2——在Z-Image发布几天前发布——只有157条

该模型从一开始就是完全不受审查的。名人、虚构角色,以及是的,露骨内容都在讨论范围内。

截至今天,Civitai上仅该模型就有大约200个资源(微调、LoRAs、工作流程),其中许多是NSFW内容。

在Reddit上,用户Regular-Forever5876用血腥提示测试了模型的极限,结果惊呆了:“天哪!!!这东西对血腥内容的理解简直太强了!生成得无可挑剔,”他们写道

Z-Image Turbo背后的技术秘密是其S3-DiT架构——一个单流变换器,从一开始就将文本和图像数据一起处理,而不是后期合并。这种紧密集成,加上激进的蒸馏技术,使得该模型能够达到通常需要五倍于其大小的模型才能满足的质量基准。

测试模型

我们对Z-Image Turbo进行了多维度的广泛测试。以下是我们的发现。

速度:SDXL速度,下一代质量

在九个步骤下,Z-Image Turbo生成图像的速度大致与SDXL相同,而SDXL通常需要30个步骤——这是一个在2023年发布的模型。

不同之处在于,Z-Image的输出质量与Flux相匹配或更胜一筹。在一台配备6GB显存的RTX 2060 GPU的笔记本电脑上,生成一张图像花费了34秒。

相比之下,Flux2生成一张可比图像大约需要十倍的时间。

真实感:新的基准

Z-Image Turbo是目前针对消费级硬件可用的最具照片真实感的开源模型。它完全超越了Flux2,基础蒸馏模型的表现也优于Flux的专用真实感微调版本。

皮肤和头发的质感看起来细致而自然。臭名昭著的“Flux下巴”和“塑料皮肤”基本消失。身体比例始终保持良好,进一步增强真实感的LoRAs已经在流通中。

文本生成:终于,能用的文字

这正是Z-Image真正闪光的地方。它是图像内文本生成的最佳开源模型,表现与谷歌的Nanobanana和Seedream相当——这些模型设定了当前的标准。

对于普通话使用者来说,Z-Image显然是最佳选择。它能够本地理解中文,并正确渲染字符。

专业提示:一些用户报告说,用普通话提示实际上有助于模型产生更好的输出,开发者甚至发布了一个普通话的“提示增强器”。

英文文本同样强大,唯一的例外是:像“decentralized”这样的不常见长词可能会让它出错——这是Nanobanana也存在的限制。

空间意识和提示遵循:卓越

Z-Image的提示遵循表现出色。它以惊人的精确度理解风格、空间关系、位置和比例。

例如,考虑这个提示:

一只戴着红色帽子的狗站在一台显示屏幕上写着“Decrypt 是世界上最好的加密货币与人工智能媒体网站”的电视上。左边是一位穿着商务套装的金发女性,手里拿着一枚硬币;右边是一只站在急救箱上的机器人,急救箱后面有一个绿色的金字塔。整体场景超现实。一只猫倒立在一只白色足球上,旁边是那只狗。一位来自NASA的宇航员手持一块写着“Emerge”的标志,放在机器人旁边。

显而易见,它只有一个拼写错误,可能是由于语言混合,但除此之外,所有元素都被准确地呈现。

提示溢出很少,复杂场景中的多个主体保持一致性。在这一指标上,它超越了Flux,并与Nanobanana相抗衡。

接下来是什么?

阿里巴巴计划发布两个变体:用于微调的Z-Image-Base和用于基于指令的修改的Z-Image-Edit。如果它们的打磨程度与Turbo相同,开源领域将发生剧烈变化。

目前,社区的裁决很明确:Z-Image已经夺走了Flux的王冠,就像Flux曾经推翻Stable Diffusion一样。

真正的赢家将是那些吸引最多开发者在其基础上构建的人。

但如果你问我们,是的,Z-Image是我们现在最喜欢的面向家庭的开源模型。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接