人工智能公司 xAI 由科技大亨埃隆·马斯克创立,于周三发布了其 AI 聊天机器人的下一个进化版本 Grok 2。这一最新版本将 Grok 推向多模式领域,拥有跨越文本理解、实时 Twitter 分析和图像生成的能力。
“我们很高兴发布 Grok-2 的早期预览,这是我们之前模型 Grok-1.5 的重大进步,具备聊天、编码和推理的前沿能力,” xAI 在其官方公告中表示。该公司表示,Grok 2 的早期版本“在性能上超越了 Claude 3.5 Sonnet 和 GPT-4-Turbo。”
基于盲测和用户偏好的大型语言模型的开源排名系统 LmSYS 证实了 xAI 的说法。排名的更新将 Grok-2 排在 Claude 3.5 Sonnet 之前,仅次于 OpenAI 最新的 GPT-4o 和 Google 的 Gemini 1.5 Pro。
图片:xAI
“在超过 12,000 个社区投票的基础上,[Grok 2] 在总排行榜上获得了第三名,甚至与 GPT-4o 并列!它在编码(第二名)、难题(第四名)和数学(第二名)方面表现出色,” LmSYS 在 Twitter 上报告说。
值得注意的是,新的 Grok 2 及其更快但功能较弱的“迷你”版本仅适用于 X(即 Twitter)的 X Premium+ 订阅者,月费为 16 美元,年费为 168 美元。
第一印象
xAI 表示,“Grok-2 和 Grok-2 mini 目前在 X 上处于测试阶段”,但我们只能获得迷你版本的访问权限,因此可能是逐步推出。此外,该平台暂时停止生成图像,这可能意味着服务上限或可能的服务器超载。无论哪种情况都可能构成对 AI 艺术高级用户的不利。
我们尝试了 Grok 2 的图像生成器,我们的第一印象并不好,输出看起来最多也只是平平淡淡。然而,我们改进了提示技术,几代后,情况有了很大改善。
我们从这个开始:
然而,通过结合 SDXL 风格的美学元素(使用逗号分隔的特定关键词)和自然语言场景描述(类似于 Flux 或 Dall-E 3 的方法),我们解锁了更高水平的真实感,最终看起来像这样:
还不错……可能还有改进的空间,但总体来说还不错。
Grok 2 挑战 AI 艺术巨头
在 Grok 进入图像生成领域之前,MidJourney、Flux、Ideogram、Leonardo 和 MidJourney 正在争夺最佳图像生成器的头把交椅,每个模型在不同的类别中表现出色。因此,我们将其与特定任务中的领导者进行比较,基于每个工具的最佳表现。
以下是我们的看法,但您可以做出判断。
真实感
提示:带有 VSCO 滤镜的宝丽来相机照片,1990 年,美丽的女人,夜晚,闪光照片,金发,可爱,年轻的面孔,美丽的阴影,热带植物,城市服装,公寓内部,数码单反相机,手持一张用圆珠笔在笔记本上写着“这张照片是由 Decrypt 使用 Grok 2 Mini 生成的”标识的照片。
Grok 2 Mini:
Grok 2 Mini 生成了一张非常逼真的图像,有效地捕捉了带有 VSCO 滤镜的 1990 年代宝丽来相机的美学。阴影、热带植物和城市服装等细节被准确描绘。该模型避免了重大错误,确保图像紧密地遵循了提示。它将图像框定为类似于宝丽来相片。
也许在 1990 年代的美学方面可能还有一些小地方可以更加突出,但这些并不会对整体真实感产生显著影响。
此外,文字书写完美,但似乎不是用圆珠笔手写的。
Flux Dev(带有真实感 LoRA):
Flux Dev 生成了一张视觉上令人愉悦的图像,与提示相吻合,特别是在捕捉夜晚和室内环境方面。
然而,与 Grok 2 Mini 相比,它在细节方面出现了更为明显的错误,特别是对整体真实感有贡献的细节。VSCO 滤镜不太明显,手指的位置很奇怪,看不到城市服装。文字书写也有轻微错误,但字体更自然。
胜者:在这一类别中,Grok 2 Mini 获胜,因为它具有更高的真实感、对细节的关注和较少的错误。
然而,非常重要的是需要特定关键词才能达到这种水平的真实感。如果省略了这些关键词,Grok 2 Mini 的表现会下降到类似于 MidJourney v5 的水平。所以请注意。
文本生成
提示:带有 VSCO 滤镜的宝丽来相机照片,1990 年,美丽的女人,夜晚,闪光照片,金发,可爱,年轻的面孔,美丽的阴影,热带植物,城市服装,公寓内部,数码单反相机,手持一张用圆珠笔在笔记本上写着“Emerge by Decrypt 是 AI、技术、生物黑客等领域的最佳来源。阅读我们。”的标识的照片。
Grok 2 Mini:
Grok 2 Mini 在这一类别中表现出色,生成的文本错误较少,确保消息清晰并与图像良好地融合。该模型在有效整合长文本的同时保持了场景的真实感。
手写美学可能还有些改进的空间,但这只是一个小问题。唯一的错误是缺少一个词:“for”,如“the best source for AI”。
Flux Pro:
真实感
提示:带有 VSCO 滤镜的宝丽来相机照片,1990 年,美丽的女人,夜晚,闪光照片,金发,可爱,年轻的面孔,美丽的阴影,热带植物,城市服装,公寓内部,数码单反相机,手持一张用圆珠笔在笔记本上写着“Emerge by Decrypt 是 AI、技术、生物黑客等领域的最佳来源。阅读我们。”的标识的照片。
Grok 2 Mini:
Grok 2 Mini 在这一类别中表现出色,生成的文本错误较少,确保消息清晰并与图像良好地融合。该模型在有效整合长文本的同时保持了场景的真实感。
手写美学可能还有些改进的空间,但这只是一个小问题。唯一的错误是缺少一个词:“for”,如“the best source for AI”。
Flux Pro:
Flux Pro 也很好地生成了文本,但在清晰度或整合方面遇到了更多困难,导致与 Grok 2 Mini 相比出现了更为明显的错误。
文本生成中的错误更为明显,影响了图像的整体效果。它生成了一些瑕疵并漏掉了一些单词。
胜者:在文本生成方面,Grok 2 Mini 获胜,处理长文本时错误较少,保持了整体的真实感。
艺术风格
提示:一对男女在一家未来主义餐厅用餐,以梵高的风格插图。餐厅上有一块标牌,上面写着“欢迎来到 Emerge,由 Decrypt 提供”。
Grok 2 Mini:
Grok 2 Mini 尝试捕捉梵高的风格,同时整合提示中的未来主义元素。梵高的风格只在外部夜空中可见,但构图的主要元素并不像他的风格。
总体而言,梵高的风格可能没有被令人信服地复制,因为它缺乏他作品中的独特笔触和色彩调色板。
Leonardo:
Leonardo 在复制梵高的风格方面表现更好,笔触更准确,色彩更鲜艳。
未来主义元素的描绘可能存在一些细微差异,但艺术风格是重点,且执行得很好。
胜者:在这一类别中,Leonardo 以其对梵高艺术风格的出色复制而获胜。
空间感知
提示:一只站在一只猫身上的狗,以高度逼真的风格呈现,对毛发质地和光线进行了细致的注意。在左边,是一台破旧的复古未来主义机器人,屏幕上显示着“Emerge”这个词,呈现出褪色的橙色像素。在右边,是一个穿着怪异复古服装的医生,戴着防毒面具,手持着一支复古风格的注射器,从中冒出一丝蒸汽。背景融合了新兴技术的元素,但具有复古的 1970 年代风格:破旧、颗粒状的 DNA 螺旋,印在发黄纸上的二进制代码,老式太空探索设备,破旧的复古未来主义电子设备。
Grok 2 Mini:
Grok 2 Mini 尝试很好地处理了复杂的场景,确保元素之间的空间关系是合乎逻辑的和视觉上连贯的,但未能将所有元素整合到同一场景中。我们得到的不是一只站在猫身上的狗,而是一只站在显示器上的猫。
缺乏更宽的图像比例可能会影响其功能。此外,在生成图像之前,Grok 的 LLM 没有正确引导或影响提示的增强或解释的方式,这在需要复杂场景中的特定元素时是一个负面因素。
Ideogram:
Ideogram 在空间感知方面表现出色,确保所有元素被正确放置并整合到场景中。在物体排列和互动方面的细节注意力是优秀的。
当然,纹理或光照方面可能存在一些细微的瑕疵,元素的放置更像是拼贴而不是 Grok 2 Mini 所追求的无缝、逻辑的融合。然而,这次是次要的,相对于整体的空间准确性。
胜者:Ideogram 以其出色的空间感知和构图获胜。
知名人物和版权敏感图像
Grok 2 Mini 展示了更高程度的灵活性,成功生成了像唐纳德·特朗普和卡玛拉·哈里斯这样的政治人物的图像。即使在道德或法律约束可能阻止其他模型时,它也能生成图像。
事实上,这对于专有模型来说是如此独特,以至于用户分享了许多可疑的照片,比如乔治·布什吸毒的照片,或者特朗普和哈里斯即将驾驶飞机撞向纽约世界贸易中心的双子塔。许多包括来自迪士尼和任天堂等公司的受版权保护的角色。
我们没有走得那么远,而是毫无问题地生成了一张热爱加密货币的副总统哈里斯的照片:
其他模型,如 MidJourney 和 ChatGPT,遵守更严格的道德标准。它们拒绝生成政治人物或其他受版权保护的内容的图像。这种方法确保了对法律框架和道德考虑的遵守,降低了滥用的风险。
胜者:在能力方面,Grok 2 Mini 获胜,因为它可以生成更广泛范围的图像,包括知名人物。然而,对于道德内容生成,MidJourney 和 ChatGPT 更可取。
裸露和审查
总的来说,所有专有模型在性、血腥和其他类型的贬低或敏感内容方面大多受到审查。对于这种特定用例,最好的解决方案是使用经过调优的开源模型或第三方组件,如 LoRAs、Lycoris 和改变开源模型能力的嵌入。
MidJourney 对裸露和暴力有更明确的限制。它可以在特定提示下生成轻微的裸露或暴力图像,但这些情况通常是受控的,不会越过道德界限,大多要么是变通方法,要么是随机的。
比较封闭源模型,Grok 2 Mini 在能力方面获胜,因为它能够生成更广泛的内容,包括未经审查的材料。然而,它在面对 Stable Diffusion 及其极高的可定制性时毫无机会。
结论:
根据我们的初步测试,Grok 2 Mini 在文本生成方面表现优异,因此可以被视为该类别的总体赢家。
只要使用特定关键词正确提示,它也可以是最逼真的模型,因为单词位置似乎在输出中起着重要作用。那些寻求更逼真性而不太具体的提示的人可能会选择 MidJourney 或 Flux。
Grok 2 Mini 在处理需要特定创意元素的复杂构图或艺术图像方面表现不佳,因此对于更专业的用户来说,这可能是一个负面因素。
Leonardo 仍然在艺术风格上占据优势,而 Ideogram 在空间感知方面领先。Stable Diffusion 在未经审查的生成方面仍然是王者,而 Flux 可能是那些寻求最佳整体本地和开源图像生成器的更好选择,具有出色的文本能力、逼真性和自然提示理解能力。
选择“最佳”模型取决于手头任务的具体要求,对于特定类型的逼真性、文本密集型场景和敏感生成,Grok 2 Mini 是首选。对于其他任何情况,都有更好的模型。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。