遇见Auraflow:一个真正的开源AI图像生成器,旨在超越稳定扩散3

CN
Decrypt
關注
9 個月前

有一个新的竞争者争夺开源AI图像生成器之王的头衔:Auraflow。上周由生成媒体公司Fal AI发布,Auraflow凭借其标准的Apache 2.0许可证备受关注,与Stability AI 用于发布Stable Diffusion 3 (SD3) 的限制性许可证相比,给人一种清新的感觉。

支持者认为,开源项目可以快速加速竞争激烈行业的开发周期,因为它使开发人员摆脱了许可和其他法律约束。在没有许可费用的情况下,社区经常围绕着有竞争力的开源项目形成,开发人员可以调整、修改、训练甚至从他们的工作中获利。

"FAL AI在一篇博客文章中表示,"我们很高兴向您介绍我们Auraflow模型系列的首次发布,这是迄今为止最大的完全开源的基于流的生成模型,能够进行文本到图像的生成。" 这家总部位于旧金山的公司由Burkay Gur和Gorkem Yurtseven共同创立于2021年,他们分别曾在Coinbase和亚马逊工作,警告称开源AI处于危险之中。"一些人甚至大胆宣称开源AI已经死了,"他们说。"不要那么快!"

在超过四周的密集计算时间内,Auraflow经历了严格的训练,包括对不同尺寸、分辨率(256x256、512x512和1024x1024)和宽高比(方形图像、风景、肖像等)的图像进行预训练。结果呢?GenEval得分为0.64,使用类似于DALL-E 3的提示增强管道后提升至0.703。


使用Auraflow生成的图像。由Fal AI分享的图片

换句话说,该模型在使用合成基准进行测试时提供了高质量的结果。然而,尽管它很好,但Auraflow仍然只是一个测试版,Fal认为它是0.1版本,而不是一个稳定的发布版本。

然而,该模型占用了大量VRAM。它需要一块具有约12GB VRAM的强大GPU来运行其fp16版本,而Stable Diffusion 3在只有6GB VRAM的情况下也可以运行良好。然而,该公司声称正在开发一个更易管理的模型。"较小的模型或MoE可能对消费级GPU卡更有效,因为它们的计算能力有限,因此请密切关注一个仍然同样强大但运行速度更快的迷你版本的模型,"Fal AI表示。

Auraflow可以在Huggingface上下载,并且可以在ComfyUI中运行,ComfyUI Manager中还提供了自定义节点。

Auraflow代表了SD3的一个强大替代品,但它是否足够好来击败它呢?我们比较了这两个基础模型,并测试了它们在各种艺术风格和提示下的表现。当我们分享我们的观察时,您可以成为评判谁最有可能赢得全球AI艺术家的心的裁判。

艺术风格和创造力

提示:“一幅详细描绘宁静湖泊上的日落的绘画,天空充满橙色、粉红色和紫色的色调,木制码头伸向水中,一个人坐在码头的尽头钓鱼,周围长满高草和野花,整体风格是印象派风格,具有大胆的笔触和鲜艳的色彩。”

Auraflow:

  • 优点:以大胆的笔触和鲜艳的色彩很好地捕捉了印象派风格。天空的色调表现得很好,营造出宁静的氛围。
  • 缺点:人物和周围自然环境的细节可以更精确。木制码头和垂钓的人可能缺乏清晰的定义。钓鱼竿的位置不自然。

SD3 Medium:

  • 优点:特别是在描绘人物和码头方面显示出高度的细节关注。整体场景更有结构,具有清晰的元素和精致的轮廓。
  • 缺点:印象派风格不太明显,笔触显得更加平滑和比预期更接近照片写实风格。

胜者:打成平局。Auraflow更贴近印象派风格,但SD3更详细和有结构。

写实主义

提示:“夜晚繁华的城市街道的高分辨率照片,霓虹灯照亮场景,人们沿着人行道行走,汽车驶过,街头小贩在卖热狗,灯光在潮湿的路面上反射,整体风格是超写实风格,注重细节和光线,一个霓虹灯写着‘Decrypt’。”

Auraflow:

  • 优点:捕捉了充满活力的夜生活,霓虹灯和潮湿路面上的反射。场景充满了活力,灯光效果做得很好。
  • 缺点:一些细节,如街头小贩和行人,不够清晰,看起来有些卡通化,影响了超写实的质量。霓虹灯缺乏清晰度。它具有一定程度的文本理解,但不足以令人信服。(它写着“Decrypt”,在热狗招牌旁边,但几乎无法辨认。)

SD3 Medium:

  • 优点:提供了高水平的细节和清晰度,特别是在描绘人物和物体方面。超写实风格通过精确的光线和反射得到很好的实现。霓虹灯清晰可见,文字可读。

  • 缺点:场景可能显得过于整洁,缺乏繁华城市街道的自然混乱。没有街头小贩,只有热狗摊。

胜者:SD3 Medium提供了更详细和超写实的图像,使其成为此提示的更好模型。

插图

提示:“手绘插图,描绘一只巨大的蜘蛛在丛林中追逐一名女性,极其恐怖,令人痛苦,黑暗而令人毛骨悚然的场景,带有恐怖氛围,略带模拟摄影的影响,素描。”

Auraflow:

  • 优点:成功营造了黑暗和令人毛骨悚然的氛围。手绘风格和素描元素明显可见。
  • 缺点:蜘蛛和女性的细节可能不足,使场景显得不那么恐怖和紧张。

SD3 Medium:

  • 优点:提供了对蜘蛛和女性高度详细和可怕的描绘。痛苦和恐怖元素更加突出。
  • 缺点:模拟摄影的影响不太明显,素描风格可能被高水平的细节所掩盖。蜘蛛的一些肢体不自然。

胜者:SD3 Medium提供了更恐怖和详细的插图,使其成为此提示的更好模型。

提示遵循度

提示:“一幅超现实的数字艺术作品,描绘天空中的漂浮岛屿,岛上长满郁郁葱葱的绿植,瀑布倾泻而下,流入下方的云层,岛屿中央有一座小城堡,用光构成的桥连接到其他漂浮岛屿,天空中挂满了色彩缤纷的热气球和神话生物,整体风格充满梦幻元素和发光效果。”

Auraflow:

  • 优点:很好地捕捉了梦幻和梦幻元素,具有发光效果和鲜艳的色彩。漂浮岛屿和瀑布被美丽地描绘出来。桥是由光构成的,神话生物也出现在场景中。
  • 缺点:一些元素,如光构成的桥和神话生物,可能缺乏细节和清晰度。

SD3 Medium:

  • 优点:提供了一个高度详细和复杂的场景,看起来更加卡通化。
  • 缺点:在这一代中,提示遵循度较弱,它没有创造出由光构成的桥,桥没有连接到其他岛屿,也没有神话生物。

胜者:Auraflow捕捉到了提示中的所有元素,使其成为此提示的更好模型。

空间意识

提示:“一只站在电视机顶端,屏幕上显示着‘解密’字样的狗。左边是一名穿着商务套装的女性拿着一枚硬币,右边是一台机器人站在急救箱顶部。整体场景超现实。”

Auraflow:

  • 优点:创造了超现实和富有想象力的场景。构图和空间布置很有趣。
  • 缺点:狗、机器人和女性的细节可能不够精致,影响整体效果。急救包的十字标志泄漏到了第二个盒子和机器人本身。生成的文本质量较差。

SD3 Medium:

  • 优点:提供了对所有元素的高度详细和清晰的描绘。通过精确的空间布置,保持了超现实的氛围。整体场景不够真实。
  • 缺点:场景可能显得不够富有想象力,更加字面化。

胜者:平局。SD3 Medium提供了更好的清晰度,使其成为此提示的更好模型。Auraflow也提供了所有生成元素,并在空间理解方面表现出了良好的水平。

动漫和漫画

提示:“一名女忍者在古代日本与一名强大的武士战斗,动漫、漫画,高度详细,色彩丰富,充满活力。”

Auraflow:

  • 优点:很好地捕捉了动漫和漫画的充满活力和色彩丰富的元素。动作场景生动而引人入胜。其风格极其详细,更像是一幅封面插图。
  • 缺点:缺乏遵循度,只生成了女忍者,没有注意到武士对手。

SD3 Medium:

  • 优点:采用了简单的二维漫画风格,使场景生动而富有活力。
  • 缺点:色彩可能不够鲜艳,影响整体的活力。未能捕捉古代日本的场景。

胜者:SD3 Medium提供了更详细和充满活力的描绘,使其成为此提示的更好模型。两者在遵循度方面都缺少关键元素。

结论

Auraflow擅长捕捉印象派、幻想和奇幻风格,而SD3 Medium更擅长提供详细、超写实和充满活力的场景。

这两个缺点可以通过微调来改进,这就是法律胜过技术的地方。Auraflow的Apache 2.0开源许可证使其对于微调者来说非常有吸引力,允许在许可证条款下免费使用、复制和分发,而SD3在这方面更加限制。因此,开始在Auraflow上工作可能会更容易。但在那之前,这只是一个尚未实现的战略优势。

然而,Auraflow运行需要大量的VRAM,一些报告显示高达35GB,这显著高于SD3,后者只需要6GB的VRAM。作为参考,一块24GB的RTX 4090在亚马逊上售价高达1700美元,而一块能够运行SD3的6GB RTX3050则可以在不到200美元找到。这是SD3目前对Auraflow具有的切实优势。

考虑到这一点,就目前而言,SD3 Medium在这个比较中是更好的模型,因为它的硬件要求更低,而且在质量方面有可比性,能够为更广泛的用户群提供服务。

尽管如此,Auraflow显示出了巨大的潜力。如果将来开发出了经过修剪(更小)或量化(不太精确)的版本,降低了其硬件需求,Auraflow可能会成为一个强大的竞争对手,并有可能挑战Stability长期以来在Stable Diffusion模型方面的主导地位。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

币安:注册返10%、领$600
链接:https://accounts.suitechsui.blue/zh-CN/register?ref=FRV6ZPAF&return_to=aHR0cHM6Ly93d3cuc3VpdGVjaHN1aS5hY2FkZW15L3poLUNOL2pvaW4_cmVmPUZSVjZaUEFG
廣告
分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接