新的AI图像生成器比SDXL更强大,且所需资源更少

CN
Decrypt
关注
1年前

稳定性AI是备受欢迎的Stable Diffusion图像生成器背后的公司,他们刚刚在激烈竞争的人工智能领域投下了另一个重磅炸弹。

稳定性全新的Stable Cascade采用全新的开源Würstchen架构,提供了一种高效且模块化的文本到图像生成方法,平衡了质量、速度和适应性。

该模型实现了传统Stable Diffusion模型中前所未有的压缩因子,公司声称它比SD 1.5(生成512x512图像)更节约资源,但能够产生分辨率和细节更高的结果,可与现代生成器如SDXL或MidJourney相媲美(通常使用1024x1024分辨率)。


图片:稳定性AI

Würstchen成分

Stable Cascade采用与传统Stable Diffusion管道不同的三阶段过程:

  • 阶段A:图像压缩器:与典型模型不同,这一初始阶段将图像处理为先进的拼图。利用矢量量化生成对抗网络(VQGAN),图像被切割成紧凑的256x256部分。每个部分从专门的码书中接收离散的“标记”。这一步为接下来的阶段中的快速处理铺平了道路。

  • 阶段B:重建者(潜在扩散模型):这一阶段在压缩后处理图像重建工作。可以将其视为一个熟练的建筑翻新者,使用详细的说明和蓝图进行工作。

  • 阶段C:文本条件潜在生成器:阶段C专注于处理基于文本的指令并生成压缩的潜在图像。这种分离的文本生成方法大大降低了特定用例的复杂性和成本。


图片:稳定性AI

换句话说,它做到了其名字所暗示的。它以文本驱动的生成器开始,产生小图像快照,然后将其放大为更详细的图像,最终以高质量的全分辨率图像呈现给您的眼睛。

模块化优势

根据其开发者的说法,Stable Cascade的模块化设计带来了几个引人注目的优势。首先是极高的效率:由于压缩的潜在空间(AI评估图像构成的方式,与人类看到的像素空间不同)和专注的阶段C模型,Stable Cascade实现了更快的推理时间,意味着它能够更快地计算其预测结果。与较大的Stable Diffusion模型如SDXL相比,它所需的硬件要求大大降低。

稳定性AI的内部测试表明,Stable Cascade在图像质量和审美吸引力方面始终能够稳定地胜过类似的模型,如SDXL。此外,该模型在非常高的速度下实现了这些结果,同时需要更少的计算资源。


图片:稳定性AI

稳定性AI声称的另一个优势是其多功能性。许多Stable Diffusion艺术家现在用来完善他们的作品的工具,如ControlNets或LoRas,都是兼容的。而且,由于其极高的效率,使用较弱的GPU的用户可以在不耗尽内存的情况下将更多这些工具添加到其工作流程中。

该模型的轻量级架构、较小的模型占用空间以及与性能较弱的计算硬件兼容性降低了进入门槛,增加了对休闲用户和研究人员来说,高级文本到图像生成技术的可访问性。

用更少的资源做更多的事

我们的测试发现,该模型准确且详细,不像稳定性AI先前的SDXL turbo或LCM模型那样呈现出褪色的橡胶质审美。相反,它生成的图像与经过精细调整的SDXL模型相媲美,具有高度详细的特点。

它还具有一些基本的文本生成能力,可以通过像Civitai这样的在线存储库中已经可用的LoRAs进一步增强。

稳定性AI报告称,尽管参数比Stable Diffusion XL多,Stable Cascade仍然享有更快的推理时间,并擅长提示对齐。

与类似大小的Stable Diffusion模型相比,对Stable Cascade进行微调所需的资源也较少。研究人员和爱好者可以在较小的数据集上进行模型训练,并且所需的计算资源大大减少,这使其非常具有成本效益。

Stable Cascade是根据非商业研究许可发布的,并且可以在Stability AI的GitHub存储库上轻松获得,还有一个由社区维护的ComfyUI工作流程已经可用,可以自动下载模型,更加方便使用。

Ryan Ozawa编辑。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

OKX限时福利:体验金周边等你拿
链接:https://www.okx.com/zh-hans/join/aicoin20
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接