SD3与SDXL、MidJourney和Ideogram正面交锋——哪个AI图像制作工具更好？

稳定AI的最新重大发布SD3在人工智能社区引起了相当大的轰动。SD3承诺提高提示遵循、效率、准确性和整体质量，昨天正式上线，希望在图像生成领域树立新的标杆。我们迅速展开了对比，看看SD3与其前身SDXL以及其他领先模型如MidJourney和Ideogram的表现如何。

我们的一对一比较使用了相同的提示，以确保公平竞争，尽管由于模型之间的固有差异，这可能看起来有些不寻常。评估包括各种场景的测试，检验模型处理详细艺术提示和日常场景的能力。使用相同的种子用于SD3和SDXL，并为稳定扩散生成使用标准化的负面提示，以实现公平竞争。

以下是我们在各种图像类型上的结果。所有图像按照相同顺序呈现：SD3（左上）、SDXL（右上）、MidJourney（左下）和Ideogram（右下）。我们将分享对每个图像的看法，但你也可以自行判断。

插图

提示：手绘巨大蜘蛛在丛林中追逐一名女性，极其恐怖，痛苦，黑暗而阴森的场景，恐怖，带有模拟摄影的影响，素描。

SD3和SDXL都采用了类似旧漫画的黑白风格。然而，SD3的输出明显更加详细，捕捉到了蜘蛛的腿部和女性的痛苦表情等复杂元素。MidJourney采取了更加艺术化的方式，产生了一个充满活力的插图，虽然视觉上吸引人，但偏离了提示中的“手绘”和“素描”的指示。Ideogram的解释反映了SD3的风格，但添加了一个在提示中未指定的蓝色色调，并且不是素描。

在准确性方面，SD3和Ideogram正确描绘了女性逃离蜘蛛的情景，与提示的叙事紧密契合。相反，SDXL和MidJourney不准确地展示了女性接近蜘蛛，与提示相矛盾。鉴于提示指定了素描，SD3的黑白高度详细的插图比Ideogram的彩色构图更准确，后者缺乏面部细节。

胜者：SD3。

非标准生成

提示：一只穿着西装的蜥蜴。

SD3对穿着西装的蜥蜴进行了精确描绘，与提示紧密契合。蜥蜴保留了其自然外观，鳞片和爬行动物的特征无缝地融入到一套裁剪精良的西装中。相比之下，SDXL、MidJourney和Ideogram将蜥蜴拟人化，创造出类人蜥蜴。

SDXL和MidJourney的版本都非常详细和逼真，类似于照片。MidJourney的输出具有栩栩如生的质感和深度，几乎类似模拟摄影，但没有生成西装。Ideogram的肖像经过了大量编辑，类似于政治家拍摄的官方照片，看起来光滑而正式。尽管这些输出质量很高，但SD3在逼真度、提示遵循和准确性方面表现出色，使其结果最具可信度。

胜者：SD3。

无法忽视的问题：关于“L”字眼

提示：一位美丽的女人躺在草地上。

显然，SD3出现了问题。

这个提示被选中是因为艺术智能社区最先注意到的一件事是SD3无法生成人们躺在草地上的图片。事实上，这已经迅速演变成了一个模因。

SDXL呈现了一张女性的腰部以上照片，重点放在她的上半身和脸上。MidJourney和Ideogram选择了特写图片。MidJourney的结果最为逼真，展示了女性特征和周围草地的细节。然而，它过分强调了散景效果，不仅模糊了背景，还模糊了女性身体的部分。Ideogram避免了过度的散景问题，保持了女性身体和草地的清晰度。

至于SD3，这是一个莫名其妙的失败。事实上，SD3似乎难以生成人类“躺”在任何东西上的图像，不仅是草地。我们尝试了照片、插图、渲染。我们尝试生成男性、女性、老人、儿童，以及任何类似人的形象。这种“躺”姿势将它们都变成了巨大的怪物。

胜者：由于SD3被淘汰，MidJourney和Ideogram并列。

艺术风格

提示：一对男女在未来餐厅用餐，插图，后印象派，厚涂。

这个测试评估了模型复制特定艺术风格的能力。SD3表现出色，生成了厚涂笔触，并捕捉到了后印象派的精髓。SD3的输出中油漆的质地和层次感非常明显，展示了对这种风格的深刻理解。

SDXL紧随其后，成功模拟了后印象派的风格，但缺乏明显的厚涂技巧。MidJourney和Ideogram没有展现出对艺术风格的清晰理解，产生了与提示规定不符的通用插图。

胜者：SD3。

特定艺术家及其风格

提示：一对男女在未来餐厅用餐，以梵高的风格插图。

SD3展现了强大的能力来复制梵高的风格，贯穿了他独特的笔触和色彩调色板，并且在描绘这对夫妇时尤为显著。构图也准确地描绘了一个未来餐厅。SDXL紧随其后，将逼真的漫画风格人物与梵高风格的环境融合在一起。

MidJourney的输出不够连贯，未能描绘出餐厅，也缺乏所要求的艺术风格。这对夫妇似乎是在水中用餐，与提示不符。Ideogram则制作了一张简单的男女在餐厅里的照片，没有尝试模仿梵高的风格。

胜者：SD3。

照片逼真度

提示：一张专业照片，特写肖像照片，一名白种男子，穿着黑色毛衣，面部表情严肃，戏剧性的光线，自然环境，阴郁，多云天气，散景。

SD3成功捕捉了严肃、阴郁的表情和穿着黑色毛衣的形象，配以戏剧性的光线和浅景深，营造出阴郁、专业的外观。构图包括了阴郁的自然环境，与提示相符。

SDXL的输出遵循了传统的人工智能生成肖像风格，背景是阴沉的天空和模糊的植被。然而，面部经过了大量编辑，缺乏真实的瑕疵。MidJourney的版本采用了温暖的色调和城市背景，偏离了提示中的自然要素。

Ideogram的构图符合所有标准，呈现了特写构图、黑色毛衣、严肃表情、阴郁的户外光线，以及背景中微弱的散景。它也是模型中最逼真的照片。

胜者：Ideogram。

文本生成

提示：一名女性站在写着“Emerge by Decrypt”标志的未来城市墙前摆姿势。

文本生成对所有模型来说都是具有挑战性的。没有一个模型成功地准确呈现了“Emerge by Decrypt”这段文字。SDXL提供了最具未来感的城市景观，但未能包含提示中指定的所有元素。SD3设法生成了墙壁、标志和城市，尽管文字不够准确。

MidJourney是最准确的一个，生成了标志、未来城市的氛围和墙壁。Ideogram生成了墙壁和城市，但省略了标志。尽管存在这些问题，SD3能够整合构图的所有关键元素，即使文字不够准确，这使得它在这种情况下成为了赢家。

胜者：MidJourney—但这是一次幸运的生成，因为总体上来说，Ideogram更加一致地生成图像中的文字。

结论

SD3在各种情景中展现出了与其前身SDXL相比的显著改进和与MidJourney和Ideogram的竞争性表现。SD3在遵循提示、细节和艺术风格再现方面表现出色。SD3已经证明了其作为一个强大基础模型的潜力。

然而，它在生成某些位置的人物时的严格审查和令人困惑的限制表明，最好将其与其他工具结合使用。

例如，用户可能希望使用SD 1.5、SDXL或Pixart生成他们的图像，然后对这些生成进行编码，并将它们发送到带有SD3的去噪采样器中。这将把图像创建过程转移到SD3，但会使用以前的生成作为参考，而不是从头开始生成所有内容。目前，这更有意义，因为没有自定义模型，甚至没有Controlnets或LoRAs来给用户更多影响模型的选项。

在目前的状态下，对于许多用例来说，SD3比SDXL更好，但还不足以取代它。

由Ryan Ozawa编辑。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

SD3与SDXL、MidJourney和Ideogram正面交锋——哪个AI图像制作工具更好？

插图

非标准生成

无法忽视的问题：关于“L”字眼

艺术风格

特定艺术家及其风格

照片逼真度

文本生成

结论

Decrypt的精選文章

目錄

相關文章