K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

埃隆·马斯克的Grok 2生成AI图像—它的表现如何?

CN
Decrypt
关注
1年前
AI 总结,5秒速览全文

人工智能公司 xAI 由科技大亨埃隆·马斯克创立,于周三发布了其 AI 聊天机器人的下一个进化版本 Grok 2。这一最新版本将 Grok 推向多模式领域,拥有跨越文本理解、实时 Twitter 分析和图像生成的能力。

“我们很高兴发布 Grok-2 的早期预览,这是我们之前模型 Grok-1.5 的重大进步,具备聊天、编码和推理的前沿能力,” xAI 在其官方公告中表示。该公司表示,Grok 2 的早期版本“在性能上超越了 Claude 3.5 Sonnet 和 GPT-4-Turbo。”

基于盲测和用户偏好的大型语言模型的开源排名系统 LmSYS 证实了 xAI 的说法。排名的更新将 Grok-2 排在 Claude 3.5 Sonnet 之前,仅次于 OpenAI 最新的 GPT-4o 和 Google 的 Gemini 1.5 Pro。


图片:xAI

“在超过 12,000 个社区投票的基础上,[Grok 2] 在总排行榜上获得了第三名,甚至与 GPT-4o 并列!它在编码(第二名)、难题(第四名)和数学(第二名)方面表现出色,” LmSYS 在 Twitter 上报告说。

值得注意的是,新的 Grok 2 及其更快但功能较弱的“迷你”版本仅适用于 X(即 Twitter)的 X Premium+ 订阅者,月费为 16 美元,年费为 168 美元。

第一印象

xAI 表示,“Grok-2 和 Grok-2 mini 目前在 X 上处于测试阶段”,但我们只能获得迷你版本的访问权限,因此可能是逐步推出。此外,该平台暂时停止生成图像,这可能意味着服务上限或可能的服务器超载。无论哪种情况都可能构成对 AI 艺术高级用户的不利。

我们尝试了 Grok 2 的图像生成器,我们的第一印象并不好,输出看起来最多也只是平平淡淡。然而,我们改进了提示技术,几代后,情况有了很大改善。

我们从这个开始:

然而,通过结合 SDXL 风格的美学元素(使用逗号分隔的特定关键词)和自然语言场景描述(类似于 Flux 或 Dall-E 3 的方法),我们解锁了更高水平的真实感,最终看起来像这样:

还不错……可能还有改进的空间,但总体来说还不错。

Grok 2 挑战 AI 艺术巨头

在 Grok 进入图像生成领域之前,MidJourney、Flux、Ideogram、Leonardo 和 MidJourney 正在争夺最佳图像生成器的头把交椅,每个模型在不同的类别中表现出色。因此,我们将其与特定任务中的领导者进行比较,基于每个工具的最佳表现。

以下是我们的看法,但您可以做出判断。

真实感

提示:带有 VSCO 滤镜的宝丽来相机照片,1990 年,美丽的女人,夜晚,闪光照片,金发,可爱,年轻的面孔,美丽的阴影,热带植物,城市服装,公寓内部,数码单反相机,手持一张用圆珠笔在笔记本上写着“这张照片是由 Decrypt 使用 Grok 2 Mini 生成的”标识的照片。

Grok 2 Mini:

Grok 2 Mini 生成了一张非常逼真的图像,有效地捕捉了带有 VSCO 滤镜的 1990 年代宝丽来相机的美学。阴影、热带植物和城市服装等细节被准确描绘。该模型避免了重大错误,确保图像紧密地遵循了提示。它将图像框定为类似于宝丽来相片。

也许在 1990 年代的美学方面可能还有一些小地方可以更加突出,但这些并不会对整体真实感产生显著影响。

此外,文字书写完美,但似乎不是用圆珠笔手写的。

Flux Dev(带有真实感 LoRA):

Flux Dev 生成了一张视觉上令人愉悦的图像,与提示相吻合,特别是在捕捉夜晚和室内环境方面。

然而,与 Grok 2 Mini 相比,它在细节方面出现了更为明显的错误,特别是对整体真实感有贡献的细节。VSCO 滤镜不太明显,手指的位置很奇怪,看不到城市服装。文字书写也有轻微错误,但字体更自然。

胜者:在这一类别中,Grok 2 Mini 获胜,因为它具有更高的真实感、对细节的关注和较少的错误。

然而,非常重要的是需要特定关键词才能达到这种水平的真实感。如果省略了这些关键词,Grok 2 Mini 的表现会下降到类似于 MidJourney v5 的水平。所以请注意。

文本生成

提示:带有 VSCO 滤镜的宝丽来相机照片,1990 年,美丽的女人,夜晚,闪光照片,金发,可爱,年轻的面孔,美丽的阴影,热带植物,城市服装,公寓内部,数码单反相机,手持一张用圆珠笔在笔记本上写着“Emerge by Decrypt 是 AI、技术、生物黑客等领域的最佳来源。阅读我们。”的标识的照片。

Grok 2 Mini:

Grok 2 Mini 在这一类别中表现出色,生成的文本错误较少,确保消息清晰并与图像良好地融合。该模型在有效整合长文本的同时保持了场景的真实感。

手写美学可能还有些改进的空间,但这只是一个小问题。唯一的错误是缺少一个词:“for”,如“the best source for AI”。

Flux Pro:

真实感

提示:带有 VSCO 滤镜的宝丽来相机照片,1990 年,美丽的女人,夜晚,闪光照片,金发,可爱,年轻的面孔,美丽的阴影,热带植物,城市服装,公寓内部,数码单反相机,手持一张用圆珠笔在笔记本上写着“Emerge by Decrypt 是 AI、技术、生物黑客等领域的最佳来源。阅读我们。”的标识的照片。

Grok 2 Mini:

Grok 2 Mini 在这一类别中表现出色,生成的文本错误较少,确保消息清晰并与图像良好地融合。该模型在有效整合长文本的同时保持了场景的真实感。

手写美学可能还有些改进的空间,但这只是一个小问题。唯一的错误是缺少一个词:“for”,如“the best source for AI”。

Flux Pro:

Flux Pro 也很好地生成了文本,但在清晰度或整合方面遇到了更多困难,导致与 Grok 2 Mini 相比出现了更为明显的错误。

文本生成中的错误更为明显,影响了图像的整体效果。它生成了一些瑕疵并漏掉了一些单词。

胜者:在文本生成方面,Grok 2 Mini 获胜,处理长文本时错误较少,保持了整体的真实感。

艺术风格

提示:一对男女在一家未来主义餐厅用餐,以梵高的风格插图。餐厅上有一块标牌,上面写着“欢迎来到 Emerge,由 Decrypt 提供”。

Grok 2 Mini:

Grok 2 Mini 尝试捕捉梵高的风格,同时整合提示中的未来主义元素。梵高的风格只在外部夜空中可见,但构图的主要元素并不像他的风格。

总体而言,梵高的风格可能没有被令人信服地复制,因为它缺乏他作品中的独特笔触和色彩调色板。

Leonardo:

Leonardo 在复制梵高的风格方面表现更好,笔触更准确,色彩更鲜艳。

未来主义元素的描绘可能存在一些细微差异,但艺术风格是重点,且执行得很好。

胜者:在这一类别中,Leonardo 以其对梵高艺术风格的出色复制而获胜。

空间感知

提示:一只站在一只猫身上的狗,以高度逼真的风格呈现,对毛发质地和光线进行了细致的注意。在左边,是一台破旧的复古未来主义机器人,屏幕上显示着“Emerge”这个词,呈现出褪色的橙色像素。在右边,是一个穿着怪异复古服装的医生,戴着防毒面具,手持着一支复古风格的注射器,从中冒出一丝蒸汽。背景融合了新兴技术的元素,但具有复古的 1970 年代风格:破旧、颗粒状的 DNA 螺旋,印在发黄纸上的二进制代码,老式太空探索设备,破旧的复古未来主义电子设备。

Grok 2 Mini:

Grok 2 Mini 尝试很好地处理了复杂的场景,确保元素之间的空间关系是合乎逻辑的和视觉上连贯的,但未能将所有元素整合到同一场景中。我们得到的不是一只站在猫身上的狗,而是一只站在显示器上的猫。

缺乏更宽的图像比例可能会影响其功能。此外,在生成图像之前,Grok 的 LLM 没有正确引导或影响提示的增强或解释的方式,这在需要复杂场景中的特定元素时是一个负面因素。

Ideogram:

Ideogram 在空间感知方面表现出色,确保所有元素被正确放置并整合到场景中。在物体排列和互动方面的细节注意力是优秀的。

当然,纹理或光照方面可能存在一些细微的瑕疵,元素的放置更像是拼贴而不是 Grok 2 Mini 所追求的无缝、逻辑的融合。然而,这次是次要的,相对于整体的空间准确性。

胜者:Ideogram 以其出色的空间感知和构图获胜。

知名人物和版权敏感图像

Grok 2 Mini 展示了更高程度的灵活性,成功生成了像唐纳德·特朗普和卡玛拉·哈里斯这样的政治人物的图像。即使在道德或法律约束可能阻止其他模型时,它也能生成图像。

事实上,这对于专有模型来说是如此独特,以至于用户分享了许多可疑的照片,比如乔治·布什吸毒的照片,或者特朗普和哈里斯即将驾驶飞机撞向纽约世界贸易中心的双子塔。许多包括来自迪士尼和任天堂等公司的受版权保护的角色。

我们没有走得那么远,而是毫无问题地生成了一张热爱加密货币的副总统哈里斯的照片:

其他模型,如 MidJourney 和 ChatGPT,遵守更严格的道德标准。它们拒绝生成政治人物或其他受版权保护的内容的图像。这种方法确保了对法律框架和道德考虑的遵守,降低了滥用的风险。

胜者:在能力方面,Grok 2 Mini 获胜,因为它可以生成更广泛范围的图像,包括知名人物。然而,对于道德内容生成,MidJourney 和 ChatGPT 更可取。

裸露和审查

总的来说,所有专有模型在性、血腥和其他类型的贬低或敏感内容方面大多受到审查。对于这种特定用例,最好的解决方案是使用经过调优的开源模型或第三方组件,如 LoRAs、Lycoris 和改变开源模型能力的嵌入。

MidJourney 对裸露和暴力有更明确的限制。它可以在特定提示下生成轻微的裸露或暴力图像,但这些情况通常是受控的,不会越过道德界限,大多要么是变通方法,要么是随机的。

比较封闭源模型,Grok 2 Mini 在能力方面获胜,因为它能够生成更广泛的内容,包括未经审查的材料。然而,它在面对 Stable Diffusion 及其极高的可定制性时毫无机会。

结论:

根据我们的初步测试,Grok 2 Mini 在文本生成方面表现优异,因此可以被视为该类别的总体赢家。

只要使用特定关键词正确提示,它也可以是最逼真的模型,因为单词位置似乎在输出中起着重要作用。那些寻求更逼真性而不太具体的提示的人可能会选择 MidJourney 或 Flux。

Grok 2 Mini 在处理需要特定创意元素的复杂构图或艺术图像方面表现不佳,因此对于更专业的用户来说,这可能是一个负面因素。

Leonardo 仍然在艺术风格上占据优势,而 Ideogram 在空间感知方面领先。Stable Diffusion 在未经审查的生成方面仍然是王者,而 Flux 可能是那些寻求最佳整体本地和开源图像生成器的更好选择,具有出色的文本能力、逼真性和自然提示理解能力。

选择“最佳”模型取决于手头任务的具体要求,对于特定类型的逼真性、文本密集型场景和敏感生成,Grok 2 Mini 是首选。对于其他任何情况,都有更好的模型。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

Decrypt的精选文章

24分钟前
谷歌最新的人工智能更新使工业机器人变得更聪明——以下是方法
43分钟前
缅因州州长珍妮特·米尔斯会签署全国首个人工智能数据中心禁令成为法律吗?
1小时前
你因担心监控而转向克劳德。现在它想要你的护照。
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatarbitcoin.com
22分钟前
Crypto.com 与在纽约证券交易所上市的赌场运营商 High Roller 合作推出美国预测市场合约
avatar
avatarDecrypt
24分钟前
谷歌最新的人工智能更新使工业机器人变得更聪明——以下是方法
avatar
avatarDecrypt
43分钟前
缅因州州长珍妮特·米尔斯会签署全国首个人工智能数据中心禁令成为法律吗?
avatar
avatarDecrypt
1小时前
你因担心监控而转向克劳德。现在它想要你的护照。
avatar
avatarDecrypt
1小时前
世界自由希望WLFI在特朗普第二个任期后被锁定——投资者并不兴奋
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接