SD3与SDXL、MidJourney和Ideogram正面交锋——哪个AI图像制作工具更好?

CN
Decrypt
關注
1 年前

稳定AI的最新重大发布SD3在人工智能社区引起了相当大的轰动。SD3承诺提高提示遵循、效率、准确性和整体质量,昨天正式上线,希望在图像生成领域树立新的标杆。我们迅速展开了对比,看看SD3与其前身SDXL以及其他领先模型如MidJourneyIdeogram的表现如何。

我们的一对一比较使用了相同的提示,以确保公平竞争,尽管由于模型之间的固有差异,这可能看起来有些不寻常。评估包括各种场景的测试,检验模型处理详细艺术提示和日常场景的能力。使用相同的种子用于SD3和SDXL,并为稳定扩散生成使用标准化的负面提示,以实现公平竞争。

以下是我们在各种图像类型上的结果。所有图像按照相同顺序呈现:SD3(左上)、SDXL(右上)、MidJourney(左下)和Ideogram(右下)。我们将分享对每个图像的看法,但你也可以自行判断。

插图

提示:手绘巨大蜘蛛在丛林中追逐一名女性,极其恐怖,痛苦,黑暗而阴森的场景,恐怖,带有模拟摄影的影响,素描。

SD3和SDXL都采用了类似旧漫画的黑白风格。然而,SD3的输出明显更加详细,捕捉到了蜘蛛的腿部和女性的痛苦表情等复杂元素。MidJourney采取了更加艺术化的方式,产生了一个充满活力的插图,虽然视觉上吸引人,但偏离了提示中的“手绘”和“素描”的指示。Ideogram的解释反映了SD3的风格,但添加了一个在提示中未指定的蓝色色调,并且不是素描。

在准确性方面,SD3和Ideogram正确描绘了女性逃离蜘蛛的情景,与提示的叙事紧密契合。相反,SDXL和MidJourney不准确地展示了女性接近蜘蛛,与提示相矛盾。鉴于提示指定了素描,SD3的黑白高度详细的插图比Ideogram的彩色构图更准确,后者缺乏面部细节。

胜者:SD3。

非标准生成

提示:一只穿着西装的蜥蜴。

SD3对穿着西装的蜥蜴进行了精确描绘,与提示紧密契合。蜥蜴保留了其自然外观,鳞片和爬行动物的特征无缝地融入到一套裁剪精良的西装中。相比之下,SDXL、MidJourney和Ideogram将蜥蜴拟人化,创造出类人蜥蜴。

SDXL和MidJourney的版本都非常详细和逼真,类似于照片。MidJourney的输出具有栩栩如生的质感和深度,几乎类似模拟摄影,但没有生成西装。Ideogram的肖像经过了大量编辑,类似于政治家拍摄的官方照片,看起来光滑而正式。尽管这些输出质量很高,但SD3在逼真度、提示遵循和准确性方面表现出色,使其结果最具可信度。

胜者:SD3。

无法忽视的问题:关于“L”字眼

提示:一位美丽的女人躺在草地上。

显然,SD3出现了问题。

这个提示被选中是因为艺术智能社区最先注意到的一件事是SD3无法生成人们躺在草地上的图片。事实上,这已经迅速演变成了一个模因

SDXL呈现了一张女性的腰部以上照片,重点放在她的上半身和脸上。MidJourney和Ideogram选择了特写图片。MidJourney的结果最为逼真,展示了女性特征和周围草地的细节。然而,它过分强调了散景效果,不仅模糊了背景,还模糊了女性身体的部分。Ideogram避免了过度的散景问题,保持了女性身体和草地的清晰度。

至于SD3,这是一个莫名其妙的失败。事实上,SD3似乎难以生成人类“躺”在任何东西上的图像,不仅是草地。我们尝试了照片、插图、渲染。我们尝试生成男性、女性、老人、儿童,以及任何类似人的形象。这种“躺”姿势将它们都变成了巨大的怪物。

胜者:由于SD3被淘汰,MidJourney和Ideogram并列。

艺术风格

提示:一对男女在未来餐厅用餐,插图,后印象派,厚涂。

这个测试评估了模型复制特定艺术风格的能力。SD3表现出色,生成了厚涂笔触,并捕捉到了后印象派的精髓。SD3的输出中油漆的质地和层次感非常明显,展示了对这种风格的深刻理解。

SDXL紧随其后,成功模拟了后印象派的风格,但缺乏明显的厚涂技巧。MidJourney和Ideogram没有展现出对艺术风格的清晰理解,产生了与提示规定不符的通用插图。

胜者:SD3。

特定艺术家及其风格

提示:一对男女在未来餐厅用餐,以梵高的风格插图。

SD3展现了强大的能力来复制梵高的风格,贯穿了他独特的笔触和色彩调色板,并且在描绘这对夫妇时尤为显著。构图也准确地描绘了一个未来餐厅。SDXL紧随其后,将逼真的漫画风格人物与梵高风格的环境融合在一起。

MidJourney的输出不够连贯,未能描绘出餐厅,也缺乏所要求的艺术风格。这对夫妇似乎是在水中用餐,与提示不符。Ideogram则制作了一张简单的男女在餐厅里的照片,没有尝试模仿梵高的风格。

胜者:SD3。

照片逼真度

提示:一张专业照片,特写肖像照片,一名白种男子,穿着黑色毛衣,面部表情严肃,戏剧性的光线,自然环境,阴郁,多云天气,散景。

SD3成功捕捉了严肃、阴郁的表情和穿着黑色毛衣的形象,配以戏剧性的光线和浅景深,营造出阴郁、专业的外观。构图包括了阴郁的自然环境,与提示相符。

SDXL的输出遵循了传统的人工智能生成肖像风格,背景是阴沉的天空和模糊的植被。然而,面部经过了大量编辑,缺乏真实的瑕疵。MidJourney的版本采用了温暖的色调和城市背景,偏离了提示中的自然要素。

Ideogram的构图符合所有标准,呈现了特写构图、黑色毛衣、严肃表情、阴郁的户外光线,以及背景中微弱的散景。它也是模型中最逼真的照片。

胜者:Ideogram。

文本生成

提示:一名女性站在写着“Emerge by Decrypt”标志的未来城市墙前摆姿势。

文本生成对所有模型来说都是具有挑战性的。没有一个模型成功地准确呈现了“Emerge by Decrypt”这段文字。SDXL提供了最具未来感的城市景观,但未能包含提示中指定的所有元素。SD3设法生成了墙壁、标志和城市,尽管文字不够准确。

MidJourney是最准确的一个,生成了标志、未来城市的氛围和墙壁。Ideogram生成了墙壁和城市,但省略了标志。尽管存在这些问题,SD3能够整合构图的所有关键元素,即使文字不够准确,这使得它在这种情况下成为了赢家。

胜者:MidJourney—但这是一次幸运的生成,因为总体上来说,Ideogram更加一致地生成图像中的文字。

结论

SD3在各种情景中展现出了与其前身SDXL相比的显著改进和与MidJourney和Ideogram的竞争性表现。SD3在遵循提示、细节和艺术风格再现方面表现出色。SD3已经证明了其作为一个强大基础模型的潜力。

然而,它在生成某些位置的人物时的严格审查和令人困惑的限制表明,最好将其与其他工具结合使用。

例如,用户可能希望使用SD 1.5、SDXL或Pixart生成他们的图像,然后对这些生成进行编码,并将它们发送到带有SD3的去噪采样器中。这将把图像创建过程转移到SD3,但会使用以前的生成作为参考,而不是从头开始生成所有内容。目前,这更有意义,因为没有自定义模型,甚至没有Controlnets或LoRAs来给用户更多影响模型的选项。

在目前的状态下,对于许多用例来说,SD3比SDXL更好,但还不足以取代它。

Ryan Ozawa编辑。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

ad
出入金首选欧易,注册立返20%
廣告
分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接