谷歌发布Imagen 3,引发了人工智能图像生成器竞赛的热潮

CN
Decrypt
关注
9个月前

Google在生成式人工智能领域度过了一个忙碌的一周,为此推出了全新的文本到图像模型Imagen 3,为此画上了完美的句号。这一发布建立在Imagen 2的成功基础之上,该模型于2023年12月推出,已经与Dall-E 3和MidJourney v5等行业巨头展开了竞争。

Imagen 3最初于五月宣布,它在理解和执行复杂提示、生成具有改进细节的图像以及与其前身相比更好地遵循提示方面具有增强的能力。它非常多才多艺,能够产生从逼真照片到艺术作品和3D构图等多种优质结果。

Google在其官方公告中表示:“Imagen 3是我们最高质量的文本到图像模型,能够生成比我们以前的模型更加细节丰富、光影更丰富、分散性瑕疵更少的图像。”

Imagen 3的提示改进使用户能够用自然语言描述所需的图像,无需复杂的提示工程。该模型的训练还包括更丰富的图像标题,使其能够捕捉到如特定的摄像机角度或构图以及需要时的长文本提示等细微差别。

这家科技巨头特别强调了Imagen 3在增强文本渲染能力方面的能力。尽管明显改进,我们的初步测试显示,其能力还不及Dall-E 3、AuraflowFlux等其他模型。

Google还强调了其在Imagen 3的开发和部署中对安全和责任的承诺。该公司实施了所谓的“广泛的过滤和数据标记”流程,以最小化模型训练数据中的有害内容。此外,Google表示进行了彻底的评估,包括红队演习,以识别和修复潜在的漏洞。

值得注意的是,Imagen 3集成了SynthID,这是Google的水印工具。SynthID将数字签名直接嵌入生成图像的像素中。这种水印对人眼来说是看不见的,但专门的软件可以检测到,提供了一种识别AI生成内容的手段。

目前,Imagen 3可以通过Google的ImageFX平台和Vertex AI获得。展望未来,Google计划在未来几个月将Imagen 2的流行编辑功能,如修补(编辑图像中的元素)和扩展(扩大图像)功能,引入到Imagen 3中。该公司还宣布了将扩大Imagen 3在更广泛产品生态系统中的可用性的意图,包括整合到Gemini应用程序、Google Workspace和Google Ads中。

此次发布是谷歌更广泛战略的一部分,旨在将Gemini和人工智能技术基本上应用于其所有服务和硬件中。本周,该公司推出了新的Pixel 9系列,其核心设计具备人工智能功能。新的Pixel手机可以在本地处理特定的生成式人工智能任务,包括基于文本的任务和小型图像生成。

Imagen 3的发布是在AI图像生成领域活动激增的背景下进行的。埃隆·马斯克的xAI最近推出了Grok 2,配备了Flux.1图像生成器,该生成器因其能够生成高度逼真、未经审查的图像以及强大的文本生成能力而受到关注。

与此同时,MidJourney作为该领域的另一重要参与者,宣布其模型即将推出v6.2更新。该公司还预告了MidJourney v7的开发计划,预计将在未来几个月发布。Ideogram作为AI图像生成领域的另一竞争者,也暗示其模型即将推出更新。最后,开放模型倡议选择Flux.1作为开发最先进的开源图像生成模型的基础。

Ryan Ozawa编辑。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

Bitget:注册返10%, 送$100
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接