谷歌纳米香蕉2与字节跳动种梦5.0轻量版:哪个AI图像生成器更好?

CN
Decrypt
关注
3小时前

本周,两款最强大的 AI 图像模型在几天内相继推出,承诺重新塑造用户创建内容的方式。


Nano Banana 2——谷歌对 Gemini 3.1 Flash Image 的内部名称——于 2 月 26 日发布,几乎立即主导了 AI 话题。它是 Nano Banana Pro 的继任者,该模型于 2025 年 11 月推出后成为 AI 图像编辑的黄金标准。Seedream 5 Lite 是字节跳动最新推出的图像生成产品,早几天就已发布。


尽管前者在谷歌的市场宣传中带着极大的声势推出,但后者却几乎没有任何新闻发布。尽管报道的差距巨大,但能力差异却不算太大。





有什么大不了的?


这两款模型都建立在相同的核心架构理念上,即赋予图像生成器在绘制之前思考的能力。


这意味着在生成开始之前进行实时网页搜索集成,以及多步链式思维推理,以解释复杂或模糊的提示,并能够在扩展的编辑工作流程中处理参考图像。


这是真正的变革,与一年前被广泛认为是革命性的生成模型相比,稳健扩散。


它们的输出分辨率最高可达 4K。两者都支持多图像参考输入以保证一致性工作流程。在单个会话中,二者都能够在角色和物体之间保持视觉一致性。


两者都可以在图像中生成有风格的、可读的文本,尽管效果并不一致。两者均进入了一个已经包含 OpenAI 的 GPT 图像 1.5、黑森林实验室的 Flux.2 以及快速增长的中国模型目录,这些模型在价格和灵活性上进行激烈竞争。


但对于最终用户来说,哪个选项更好?我们测试了这两种模型,以帮助找到答案。


技术和价格比较


首先要了解的是价格差距。


谷歌通过 Gemini API 定价 Nano 每输出一百万图像标记为 60 美元。实际上,这大约相当于 512px 图像为 0.045 美元,1K 分辨率为 0.067 美元,2K 为 0.101 美元,4K 为 0.151 美元。


Seedream 每张图像的收费统一为 0.035 美元,无论输出分辨率,因此在超过 512px 的任何尺寸上,Seedream 都是更便宜的选择。


在 4K 分辨率下,Nano 的每张图像成本超过四倍。这对于高产量生产管道来说,这个差距会迅速增加。


可用性完全遵循不同的分发路径。Nano 在谷歌的所有消费者和开发者生态系统中运行,包括 Gemini 应用、谷歌搜索的 AI 模式、谷歌镜头、AI Studio、Vertex AI 和用于视频创作的谷歌流。它被嵌入在数亿人每天使用的基础设施中。


Seedream 通过字节跳动的 CapCut 和剪映创意应用、第三方 API 聚合平台以及字节跳动专用的图像生成接口 Dreamina 向用户发送。一个关键区别是:Seedream 可以在本地运行,而谷歌不允许这样。


平台体验是另一个值得考虑的差异。Gemini 首先是一个聊天机器人,其次是一个图像生成器。它生成图像的速度很快,实际效果符合谷歌声称的速度。


但是,你是在一个并非为迭代视觉工作流程设计的对话界面中工作。


Dreamina 是专门为图像创作而构建的。它具有专门管理参考、进行多步骤编辑和构图控制的工具。


此外,Dreamina 的生成队列在 Gemini 接口下的表现所需时间明显更长。对于快速测试或单个图像,Gemini 更快。而对于持续多个回合的编辑会话,Dreamina 的结构更为连贯。


在内容审核方面,Gemini 在大多数情况下拒绝与真实人物合作——如果要求对类似对象进行编辑,涉及公众人物的照片处理或任何带有可识别主题的暗示内容,它都会拒绝。


Seedream 在规则上则要宽松得多。字节跳动允许以谷歌不参与的方式编辑真实图像和处理可识别对象,这解释了 Seedream 在内容创作者社区中的追随者比例。


在 API 方面,两种模型都支持可配置的推理深度。Nano 允许开发人员设置思维层次,从最少到高或动态,让模型能够在承诺进行渲染之前推理复杂提示。


Seedream 在其架构中实施链式思维监督,从而提高了对多约束和空间复杂生成任务的提示准确度。


尽管没有任何模型使推理对开发者完全透明,但在处理较难提示时,两者的表现均优于其以前的版本。


角色一致性:小型活动测试




此测试检验模型能否在一个真实图像的多个编辑版本中保持可识别的身份。原始对象是一对在购物中心拍摄的真实情侣。


目标是在五个迭代中交换他们的服装和照片中的其他元素,同时保持相同的面孔、身材和可视身份可识别。


Gemini 聊天机器人拒绝直接处理真实照片——这与其内容政策一致。测试 Nano Banana 2 需要直接通过 API 进行。


Nano:




Nano 的结果虽然视觉效果良好,但后期迭代显示出明显的身份漂移。


场景几何保持不变——LED 隧道环境、瓷砖人行道透视和背景标志的放置都保持一致。


但主体实际上被重新塑造了。到最后的迭代,女性不再是原来的那位。男性的特征在各个迭代中几乎完全被替代:年龄区间不同、身材不同、面部结构不同、头发不同。


模型生成了一些美丽的东西,但不是实际在场的人。如果用于编辑原始图像的参考没有可混淆模型的面孔,情况可能会得到部分改善。


Seedream:




Seedream 在相同工作流程中的身份保留表现明显更好。女性的面部结构、微笑几何和头部倾斜在多轮中保持与源图像的固定联系。


男性更保留了他的原始身材和物理存在。两位主体之间的姿势连续性也得到了更好的保留——手臂位置、距离和姿态排列保持一致,这对于需要感觉像同一场景而非新场景的任何事物都很重要。


不过,仍然有小的细微之处,例如稍微的皮肤平滑、轻微的腰部重塑以及主体的整体质量下降。


但这对情侣依然可以被认出是那对情侣。对于一项活动工作流程,在多个创意输出中需要出现同一人物,这个差异并不微小。


扩展绘画和画布扩展


扩展绘画的测试要求两种模型将现代简约的客厅图像扩展至 16:9,自然地向左右拓展场景,同时保持光线一致性和空间逻辑。


提示指定了白色墙壁、米色沙发、木质咖啡桌和室内植物——一个简单明了的简要说明,具有明确的建筑参数。


Nano:







Nano Banana 2 产生了干净、无缝的结果,没有可见的拼接伪影或在原始裁剪边界处的色调带。墙面颜色、日光平衡和地面材料在扩展过程中保持一致。


来自隐含窗口源的光照方向在扩展框架中合理延续。从技术上讲,混合几乎无瑕疵。


但该模型引入了一些不是场景一部分的元素,例如右侧的一个篮子和背景中的一栋建筑。也就是说,与以前的模型相比,这非常令人印象深刻。


Seedream:





Seedream 在原始输出中更为基础,这使得编辑更容易。


扩展的左侧引入了第二个大型盆栽植物和完整的窗帘流动,令人感到在隐含窗口源的空间上合理。


右侧扩展到第二面墙、框架艺术和低矮的木质柜台,在整个过程中保持了简约的材料语言——浅色木材、柔和的中性色,没有与原图的美学规则相矛盾的元素。光照在整个扩展框架中保持方向一致。


天花板平面、吊灯位置和地面鱼骨图案都保持了逻辑对齐。房间感觉像是一个可信的更广泛的框架,而不是重组的概念。我们没有发现任何明显的伪影或错误。


对于在空间保真度和建筑真实性方面都很重要的生产环境,Seedream 5 Lite 是更可靠的工具。如果现实主义比保真度更重要,Nano Banana 2 可以是更好的选择。


非真实图像生成:YouTube 缩略图测试


该测试从编辑和扩展转向纯生成领域,具有高度特定的简要:一个阅读 "AI IMAGE WAR" 的 YouTube 缩略图,副标题命名了两个模型,左侧为大型粗体标题文本的分屏布局,鲜明的高能量色彩,以及 16:9 的框架。


缩略图生成需要准确的排版、明确的构图层次以及即时的视觉能量——这三者同时兼顾。


Nano:




Nano 完全理解缩略图的语法。


它在左侧生成了具有高对比度的超大排版的构图,右侧则是戏剧性的分屏对抗,暖橙色与电蓝色之间的饱和霓虹色冲突,以及中央的闪电分隔线增强了对比的动态。


标题层次干净——"AI IMAGE WAR" 在视觉上占据主导,具有轮廓线和光晕效果,在小型移动屏幕上的效果依然保持良好。


文本渲染准确,没有拼写扭曲,没有乱码字符,且字距始终一致。人脸超精细且充满情感。


视觉能量高,看起来确实像是为点击而设计的缩略图。


Seedream:




Seedream 采取了不同的 approach。它生成了风格化的吉祥物——一只香蕉角色和一个发光的神经球——来代表每个模型,使比较更具图形化、图标化的感觉。


布局更简洁且结构良好,标题占主导,副标题清晰可读,每个模型名称都被框出,便于快速扫描。


排版出色:笔划重量干净、可扩展性强,没有主要伪影。当 Nano Banana 采用戏剧性和情感强度时,Seedream 产生了更具区别性和可扩展的视觉身份。


这可能是风格选择,但在我们主观的观点中,对于激进的病毒式点击率优化,Nano Banana 2 的电影强度更胜一筹。


真实图像生成:多约束准确性


最后的测试测量每个模型在不违反或误解任何约束的情况下跟随详细的多元素提示的准确性。


简要说明:在日落时分,一位 32 岁的女建筑师穿着米色风衣和圆形眼镜,左手持卷装蓝图,站在屋顶上,城市天际线在背景中略微模糊,金色时光光照下伴随柔和的边缘光,模拟 50mm 镜头的浅景深,纵向 4:5 的长宽比,现实的皮肤纹理,细微的胶卷颗粒。列表中的每个元素都是一个独立的约束。


Nano:




Nano 生成了一个向外看,肤色偏白的女性——这一叙述选择在提示中未作规定,这暗示其更倾向于创意解读而非严格遵循约束。


米色风衣、圆形眼镜和左手中的卷装蓝图均正确呈现。屋顶和模糊的天际线存在并且在空间上令人信服。


金色时光的光照很明显,不过相较于提示中呼唤的暖色调稍显凉。边缘光显得不过于明显而不够清晰。景深表现良好,但空间压缩感更接近 35mm 到 40mm 的模拟而非真正的 50mm。


胶卷颗粒很少到几乎不可察觉。皮肤纹理逼真,却带有美学训练扩散系统常见的轻微平滑偏向。总体执行 solid,模型在部分选择中进行了宁静的替代。


Seedream:




Seedream 生成了一位面朝镜头的亚洲女性——这是一个未指定目光方向的提示的中立默认设置。


所有指定元素均已存在且正确实施。金色时光的温暖更为明显(可能甚至有些夸张),边缘光清晰分离主体与背景,符合提示的意图。


景深的执行和焦点压缩更近似于真实的 50mm 模拟,主体与背景的比例自然。皮肤纹理准确,微对比保持更好,平滑伪影比 Nano Banana 的输出更少。


不过,生成的蓝图之一被错误生成,似乎更像是一个伪影而不是生成的适当元素。


在构图上,Seedream 的结果更为居中和技术精确,解释性添加更少,但 Nano Banana 生成了更真实的图像。


可能需要考虑的一致性错误


在涉及大量连续生成的扩展 API 会话中,两种模型显示出在工作流程开始时不存在的退化现象。


Seedream 开始在早期生成中锐利呈现的对象上生产模糊、不清晰的面孔。Nano 则完全失去了主体身份,生成的人物与会话一开始确定的主体没有任何持续关系。


随着会话时间的增加,两种模型似乎都在降低其推理深度——仿佛它们在每次生成中花费的努力在逐渐减少。


无论这是故意的计算节流,还是在重 API 流量下的负载平衡行为,或者是架构中的原因,从外部很难明确。 


但这个现象足够一致,可以在任何运行长生成链的生产管道中进行规划。两种模型在会话开始时的表现最好,随着持续的生成量都会降低表现。


理想情况下,避免连续迭代,要求模型在单次迭代中进行合理数量的编辑以避免退化。


但这是一门艺术。一次性过多的编辑会导致提示遵循不佳;过少会导致需要连续迭代,从而降低主体一致性。


结论:谁胜出?


Nano 在文本渲染、原始生成速度、生态系统集成和生成能量方面获胜。文本准确性是其最明显的优势——没有乱码字符,没有不一致的字体,没有重复的文本。


它生成速度快。它在数十亿人已经使用的产品中工作。并且它的世界知识整合,通过模型在决定渲染什么之前搜索网络,生成让人感觉编辑上有根基,而非泛泛而谈的美学作品。


如果你的工作流程处于谷歌的生态系统中,如果图像中的文本准确性不可妥协,或者如果你需要快速度迭代而又不与真实人物合作,Nano 是在这些特定条件下更强的工具。


Seedream 在成本、平台设计、内容灵活性、空间任务中的结构纪律以及多步骤编辑过程中的角色保留方面胜出。


0.035 美元的统一定价使其成为任何大量生成图像的管道的实用默认选择。Dreamina 的专用界面相较于 Gemini 的聊天机器人外壳在持续的创意会话中更加连贯。


宽松的内容政策打开了谷歌不会参与的用例。而在需要在多次迭代中保持一致身份的工作流程中——这是活动工作的核心需求——Seedream 在我们运行的每项测试中都表现得更好。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接