埃隆·马斯克的Grok 2生成AI图像—它的表现如何？

人工智能公司 xAI 由科技大亨埃隆·马斯克创立，于周三发布了其 AI 聊天机器人的下一个进化版本 Grok 2。这一最新版本将 Grok 推向多模式领域，拥有跨越文本理解、实时 Twitter 分析和图像生成的能力。

“我们很高兴发布 Grok-2 的早期预览，这是我们之前模型 Grok-1.5 的重大进步，具备聊天、编码和推理的前沿能力，” xAI 在其官方公告中表示。该公司表示，Grok 2 的早期版本“在性能上超越了 Claude 3.5 Sonnet 和 GPT-4-Turbo。”

基于盲测和用户偏好的大型语言模型的开源排名系统 LmSYS 证实了 xAI 的说法。排名的更新将 Grok-2 排在 Claude 3.5 Sonnet 之前，仅次于 OpenAI 最新的 GPT-4o 和 Google 的 Gemini 1.5 Pro。

图片：xAI

“在超过 12,000 个社区投票的基础上，[Grok 2] 在总排行榜上获得了第三名，甚至与 GPT-4o 并列！它在编码（第二名）、难题（第四名）和数学（第二名）方面表现出色，” LmSYS 在 Twitter 上报告说。

值得注意的是，新的 Grok 2 及其更快但功能较弱的“迷你”版本仅适用于 X（即 Twitter）的 X Premium+ 订阅者，月费为 16 美元，年费为 168 美元。

第一印象

xAI 表示，“Grok-2 和 Grok-2 mini 目前在 X 上处于测试阶段”，但我们只能获得迷你版本的访问权限，因此可能是逐步推出。此外，该平台暂时停止生成图像，这可能意味着服务上限或可能的服务器超载。无论哪种情况都可能构成对 AI 艺术高级用户的不利。

我们尝试了 Grok 2 的图像生成器，我们的第一印象并不好，输出看起来最多也只是平平淡淡。然而，我们改进了提示技术，几代后，情况有了很大改善。

我们从这个开始：

然而，通过结合 SDXL 风格的美学元素（使用逗号分隔的特定关键词）和自然语言场景描述（类似于 Flux 或 Dall-E 3 的方法），我们解锁了更高水平的真实感，最终看起来像这样：

还不错……可能还有改进的空间，但总体来说还不错。

Grok 2 挑战 AI 艺术巨头

在 Grok 进入图像生成领域之前，MidJourney、Flux、Ideogram、Leonardo 和 MidJourney 正在争夺最佳图像生成器的头把交椅，每个模型在不同的类别中表现出色。因此，我们将其与特定任务中的领导者进行比较，基于每个工具的最佳表现。

以下是我们的看法，但您可以做出判断。

真实感

提示：带有 VSCO 滤镜的宝丽来相机照片，1990 年，美丽的女人，夜晚，闪光照片，金发，可爱，年轻的面孔，美丽的阴影，热带植物，城市服装，公寓内部，数码单反相机，手持一张用圆珠笔在笔记本上写着“这张照片是由 Decrypt 使用 Grok 2 Mini 生成的”标识的照片。

Grok 2 Mini：

Grok 2 Mini 生成了一张非常逼真的图像，有效地捕捉了带有 VSCO 滤镜的 1990 年代宝丽来相机的美学。阴影、热带植物和城市服装等细节被准确描绘。该模型避免了重大错误，确保图像紧密地遵循了提示。它将图像框定为类似于宝丽来相片。

也许在 1990 年代的美学方面可能还有一些小地方可以更加突出，但这些并不会对整体真实感产生显著影响。

此外，文字书写完美，但似乎不是用圆珠笔手写的。

Flux Dev（带有真实感 LoRA）：

Flux Dev 生成了一张视觉上令人愉悦的图像，与提示相吻合，特别是在捕捉夜晚和室内环境方面。

然而，与 Grok 2 Mini 相比，它在细节方面出现了更为明显的错误，特别是对整体真实感有贡献的细节。VSCO 滤镜不太明显，手指的位置很奇怪，看不到城市服装。文字书写也有轻微错误，但字体更自然。

胜者：在这一类别中，Grok 2 Mini 获胜，因为它具有更高的真实感、对细节的关注和较少的错误。

然而，非常重要的是需要特定关键词才能达到这种水平的真实感。如果省略了这些关键词，Grok 2 Mini 的表现会下降到类似于 MidJourney v5 的水平。所以请注意。

文本生成

提示：带有 VSCO 滤镜的宝丽来相机照片，1990 年，美丽的女人，夜晚，闪光照片，金发，可爱，年轻的面孔，美丽的阴影，热带植物，城市服装，公寓内部，数码单反相机，手持一张用圆珠笔在笔记本上写着“Emerge by Decrypt 是 AI、技术、生物黑客等领域的最佳来源。阅读我们。”的标识的照片。

Grok 2 Mini：

Grok 2 Mini 在这一类别中表现出色，生成的文本错误较少，确保消息清晰并与图像良好地融合。该模型在有效整合长文本的同时保持了场景的真实感。

手写美学可能还有些改进的空间，但这只是一个小问题。唯一的错误是缺少一个词：“for”，如“the best source for AI”。

Flux Pro：

真实感

Grok 2 Mini：

Grok 2 Mini 在这一类别中表现出色，生成的文本错误较少，确保消息清晰并与图像良好地融合。该模型在有效整合长文本的同时保持了场景的真实感。

手写美学可能还有些改进的空间，但这只是一个小问题。唯一的错误是缺少一个词：“for”，如“the best source for AI”。

Flux Pro：

Flux Pro 也很好地生成了文本，但在清晰度或整合方面遇到了更多困难，导致与 Grok 2 Mini 相比出现了更为明显的错误。

文本生成中的错误更为明显，影响了图像的整体效果。它生成了一些瑕疵并漏掉了一些单词。

胜者：在文本生成方面，Grok 2 Mini 获胜，处理长文本时错误较少，保持了整体的真实感。

艺术风格

提示：一对男女在一家未来主义餐厅用餐，以梵高的风格插图。餐厅上有一块标牌，上面写着“欢迎来到 Emerge，由 Decrypt 提供”。

Grok 2 Mini：

Grok 2 Mini 尝试捕捉梵高的风格，同时整合提示中的未来主义元素。梵高的风格只在外部夜空中可见，但构图的主要元素并不像他的风格。

总体而言，梵高的风格可能没有被令人信服地复制，因为它缺乏他作品中的独特笔触和色彩调色板。

Leonardo：

Leonardo 在复制梵高的风格方面表现更好，笔触更准确，色彩更鲜艳。

未来主义元素的描绘可能存在一些细微差异，但艺术风格是重点，且执行得很好。

胜者：在这一类别中，Leonardo 以其对梵高艺术风格的出色复制而获胜。

空间感知

提示：一只站在一只猫身上的狗，以高度逼真的风格呈现，对毛发质地和光线进行了细致的注意。在左边，是一台破旧的复古未来主义机器人，屏幕上显示着“Emerge”这个词，呈现出褪色的橙色像素。在右边，是一个穿着怪异复古服装的医生，戴着防毒面具，手持着一支复古风格的注射器，从中冒出一丝蒸汽。背景融合了新兴技术的元素，但具有复古的 1970 年代风格：破旧、颗粒状的 DNA 螺旋，印在发黄纸上的二进制代码，老式太空探索设备，破旧的复古未来主义电子设备。

Grok 2 Mini：

Grok 2 Mini 尝试很好地处理了复杂的场景，确保元素之间的空间关系是合乎逻辑的和视觉上连贯的，但未能将所有元素整合到同一场景中。我们得到的不是一只站在猫身上的狗，而是一只站在显示器上的猫。

缺乏更宽的图像比例可能会影响其功能。此外，在生成图像之前，Grok 的 LLM 没有正确引导或影响提示的增强或解释的方式，这在需要复杂场景中的特定元素时是一个负面因素。

Ideogram：

Ideogram 在空间感知方面表现出色，确保所有元素被正确放置并整合到场景中。在物体排列和互动方面的细节注意力是优秀的。

当然，纹理或光照方面可能存在一些细微的瑕疵，元素的放置更像是拼贴而不是 Grok 2 Mini 所追求的无缝、逻辑的融合。然而，这次是次要的，相对于整体的空间准确性。

胜者：Ideogram 以其出色的空间感知和构图获胜。

知名人物和版权敏感图像

Grok 2 Mini 展示了更高程度的灵活性，成功生成了像唐纳德·特朗普和卡玛拉·哈里斯这样的政治人物的图像。即使在道德或法律约束可能阻止其他模型时，它也能生成图像。

事实上，这对于专有模型来说是如此独特，以至于用户分享了许多可疑的照片，比如乔治·布什吸毒的照片，或者特朗普和哈里斯即将驾驶飞机撞向纽约世界贸易中心的双子塔。许多包括来自迪士尼和任天堂等公司的受版权保护的角色。

我们没有走得那么远，而是毫无问题地生成了一张热爱加密货币的副总统哈里斯的照片：

其他模型，如 MidJourney 和 ChatGPT，遵守更严格的道德标准。它们拒绝生成政治人物或其他受版权保护的内容的图像。这种方法确保了对法律框架和道德考虑的遵守，降低了滥用的风险。

胜者：在能力方面，Grok 2 Mini 获胜，因为它可以生成更广泛范围的图像，包括知名人物。然而，对于道德内容生成，MidJourney 和 ChatGPT 更可取。

裸露和审查

总的来说，所有专有模型在性、血腥和其他类型的贬低或敏感内容方面大多受到审查。对于这种特定用例，最好的解决方案是使用经过调优的开源模型或第三方组件，如 LoRAs、Lycoris 和改变开源模型能力的嵌入。

MidJourney 对裸露和暴力有更明确的限制。它可以在特定提示下生成轻微的裸露或暴力图像，但这些情况通常是受控的，不会越过道德界限，大多要么是变通方法，要么是随机的。

比较封闭源模型，Grok 2 Mini 在能力方面获胜，因为它能够生成更广泛的内容，包括未经审查的材料。然而，它在面对 Stable Diffusion 及其极高的可定制性时毫无机会。

结论：

根据我们的初步测试，Grok 2 Mini 在文本生成方面表现优异，因此可以被视为该类别的总体赢家。

只要使用特定关键词正确提示，它也可以是最逼真的模型，因为单词位置似乎在输出中起着重要作用。那些寻求更逼真性而不太具体的提示的人可能会选择 MidJourney 或 Flux。

Grok 2 Mini 在处理需要特定创意元素的复杂构图或艺术图像方面表现不佳，因此对于更专业的用户来说，这可能是一个负面因素。

Leonardo 仍然在艺术风格上占据优势，而 Ideogram 在空间感知方面领先。Stable Diffusion 在未经审查的生成方面仍然是王者，而 Flux 可能是那些寻求最佳整体本地和开源图像生成器的更好选择，具有出色的文本能力、逼真性和自然提示理解能力。

选择“最佳”模型取决于手头任务的具体要求，对于特定类型的逼真性、文本密集型场景和敏感生成，Grok 2 Mini 是首选。对于其他任何情况，都有更好的模型。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

埃隆·马斯克的Grok 2生成AI图像—它的表现如何？

第一印象

Grok 2 挑战 AI 艺术巨头

真实感

文本生成

真实感

艺术风格

空间感知

知名人物和版权敏感图像

裸露和审查

MidJourney 对裸露和暴力有更明确的限制。它可以在特定提示下生成轻微的裸露或暴力图像，但这些情况通常是受控的，不会越过道德界限，大多要么是变通方法，要么是随机的。

结论：

Decrypt的精选文章

目录

相关文章