图像人工智能的跃进:谷歌与字节跳动最新模型的比较

CN
Decrypt
关注
3小时前

本周内推出的两个最强大的人工智能图像模型在几天内发布,承诺重新塑造用户创造内容的方式。


Nano Banana 2——谷歌对Gemini 3.1 Flash Image的内部名称——于2月26日发布,并几乎立即主导了人工智能讨论。它是Nano Banana Pro的继任者,该模型在2025年11月发布后成为人工智能图像编辑的金标准。Seedream 5 Lite是字节跳动在图像生成阵容中的最新产品,几天前就已发布。


虽然前者在谷歌的营销机器中引起了很大轰动,但后者则几乎没有发布新闻稿就悄然推出。尽管报道的差距很大,但能力的差别却较小。





有什么大不了的?


这两个模型都是围绕同一个核心架构思想构建的,赋予图像生成器在绘制之前思考的能力。


这意味着在生成开始之前,实时网页搜索集成以及多步骤的推理链可以解释复杂或模棱两可的提示,还能在扩展编辑工作流程中处理参考图像。


这与一年前的生成模型相比是一个真正的转变,那时稳定扩散被广泛认为是革命性的。


它们都能输出高达4K的分辨率。两者都支持多图像参考输入以保持一致性工作流程。两者都能够在单一会话中保持角色和物体的视觉连贯性。


两者都能够在图像中生成样式化的可读文本,尽管表现并不相同。它们进入的市场已经包括OpenAI的GPT图像1.5、黑森林实验室的Flux.2以及迅速增长的与价格和灵活性竞争的中国模型目录。


但哪个选项对最终用户最好?我们测试了这两种模型以帮助找出答案。


技术、价格比较


首先要了解的是定价差距。


谷歌通过Gemini API以每百万输出图像令牌60美元的价格定价Nano。从实际角度来看,这折合为512px图像约0.045美元,1K分辨率约0.067美元,2K约0.101美元,4K约0.151美元。


Seedream收取每张图像统一0.035美元的费用,无论输出分辨率如何,因此在512px以上的任何大小,Seedream都是更便宜的选项。


在4K时,Nano的每张图像成本是Seedream的四倍以上。对于高产量生产管线,这会迅速累积。


可用性则遵循完全不同的分发路径。Nano在谷歌的全消费者和开发者生态系统中实时运行,包括Gemini应用、谷歌搜索的人工智能模式、谷歌镜头、人工智能工作室、Vertex AI和谷歌Flow视频创作。这嵌入了数亿人每天使用的基础设施中。


Seedream通过字节跳动的CapCut和剪映创意应用、通过第三方API聚合平台以及通过字节跳动专门的图像生成接口Dreamina来接触用户。一个关键区别是:Seedream可以在本地运行。这一点谷歌不允许。


平台体验也是一个需要考虑的差异。Gemini是一个以聊天机器人为首的模型,图像生成是其第二位功能。它生成图像的速度很快;谷歌的速度宣传在实践中得到兑现。


但你是在一个并非为迭代视觉工作流程设计的对话界面中工作。


Dreamina是专为图像创作而建立的。它具备专门的工具用于参考管理、多步骤编辑和组合控制。


此外,Dreamina的生成队列比Nano通过Gemini的接口耗时明显更长。对于快速测试或单张图像,Gemini的速度更快。对于持续的多轮编辑会话,Dreamina的结构更连贯。


在内容审核方面,Gemini在大多数情况下拒绝与真实人物合作——如果要求它进行类似的编辑,或涉及公众人物的照片处理,或任何与可识别对象相关的暗示性内容,它都拒绝。


Seedream则遵循显著更宽松的规则。字节跳动允许以谷歌不参与的方式编辑真实图像并与可识别对象合作,这解释了Seedream在内容创作者中获得显著关注的部分原因。


在API方面,这两种模型支持可配置的推理深度。Nano允许开发者设置从最低到高或动态的思考水平,使模型可以在承诺渲染之前推理复杂提示。


Seedream在其架构中实施了推理链监督,从而提高了多约束与空间复杂生成任务的提示保真度。


这两种模型都没有让开发者完全透明地了解推理过程,但在困难提示上的表现优于没有这种能力的前任。


角色一致性:小型活动测试




这测试模型能否在多个编辑迭代中保持真实图像的可辨识身份。原始主题是一对在购物中心拍摄的真实情侣。


目标是在五次迭代中交换他们的服装和照片中的其他元素,保持相同的面孔、体型和视觉身份辨识。


Gemini聊天机器人拒绝直接处理真实照片,这与其内容政策一致。测试Nano Banana 2需要直接通过API进行。


Nano:




Nano的结果虽然视觉上精致,但后期迭代显示出明显的身份漂移。


场景几何保持一致——LED隧道环境、瓷砖人行道透视和背景标志位置都保持连贯。


但参与者自身实际上被重新塑造。在迭代结束时,女性不再是原来的那个人。男性在迭代中几乎完全被替换:不同的年龄范围、不同的体型、不同的面部结构、不同的发型。


该模型产生了美丽的图像,但不是实际在场的那个人。如果在编辑原件时使用的参考材料上传时不包含可能混淆模型的面孔,这一问题可以在一定程度上解决。


Seedream:




Seedream在保持身份一致性方面表现明显更好。女性的面部结构、微笑几何和头部倾斜在多个轮次中始终与源图像保持一致。


男性保留了更多的原始体型和身体存在感。两位主角之间的姿势连续性也得到了更好的维护——手臂的摆放、相对位置和站姿对齐保持一致,这对需要让场景感到一致的任何作品至关重要。


不过,仍然存在一些微小的迹象,如轻微的皮肤平滑、稍微的腰部重塑以及主体的整体质量降低。


但这对情侣依然可以被认出是那对情侣。对于需要在多个创作输出中出现相同人员的活动工作流程来说,这一差异并不小。


扩展画布


扩展测试要求这两种模型将一幅现代简约客厅的图像扩展至16:9,自然向左右扩展场景,同时保持光线一致性和空间逻辑。


提示中规定了白色墙壁、米色沙发、木质咖啡桌和室内植物——这是一个明确的简报,有着清晰的建筑参数。


Nano:







Nano Banana 2生成干净、无缝的结果,没有明显的接缝伪影或原始裁切边界的色调带。扩展后墙壁颜色、日光平衡和地面材料都保持一致。


来自窗户的光线方向在扩展的画面中也继续保持合理。技术上,这种融合几乎没有缺陷。


但模型引入了一些原本不在场景中的元素,比如右侧的篮子和背景中的建筑。尽管如此,与之前的模型相比,这仍然非常令人印象深刻。


Seedream:





Seedream在原始输出中较为基础,使得编辑更容易。


扩展的左侧引入了第二个大型盆栽植物和全帘,感觉与隐含的窗户源空间合理。


右侧则扩展到了第二面墙、框架艺术和一个矮木控制台,在视觉上始终保持简约的材料语言——浅色木材、柔和的中性色,没有与原始的美学规则相矛盾的元素。光线在整个扩展的画面中依然保持了一致的方向。


天花板平面、吊灯位置和地面鱼骨图案都保持了逻辑上的对齐。这个房间感觉像是一个可信的更宽广的框架,而不是重新组合的概念。我们没有发现任何明显的伪影或错误。


对于空间保真度和建筑诚信至关重要的生产环境,Seedream 5 Lite在这里是更可靠的工具。如果现实主义比保真度更重要,Nano Banana 2则可以是更好的选项。


非真实图像生成:YouTube缩略图测试


这个测试从编辑和扩展转向纯生成领域,需求高度特定的简报:一个显示“AI IMAGE WAR”的YouTube缩略图,带有副标题命名两个模型,左侧大型粗体标题文本的分屏布局,对比鲜明的高能色彩,以及16:9的框架。


缩略图生成需要准确的排版、经过深思熟虑的构图层次和即时的视觉能量——这一切都要同时完成。


Nano:




Nano完美理解了缩略图的语法。


它生成了左侧粗大的高对比度字体的构图,右侧是戏剧性的分屏对决,温暖的橙色与电蓝色之间激烈的霓虹色对比,以及中央的闪电分隔线强化了对抗的动态。


标题层次清晰——“AI IMAGE WAR”在视觉上主导,轮廓线和光晕效果在小型移动屏幕上也能保持。


文本呈现准确,没有拼写扭曲,没有模糊字符,且整个过程中字距一致。面孔的细节极其丰富,情感强烈。


视觉能量很高。它看起来确实像是一个旨在被点击的缩略图。


Seedream:




Seedream采用了不同的策略。它没有生成真实感戏剧性的面孔,而是生成了风格化的吉祥物——一个香蕉角色和一个发光的神经球——来代表每个模型,使对比更具图形化、符号化的感觉。


布局更简洁,结构合理,标题占主导地位,副标题清晰易读,每个模型名称都被框住以便快速扫描。


排版很强:干净的笔画重量,在放大时可读,没有重大伪影。Nano Banana倾向于视觉冲击和情感强度,而Seedream生成的内容则不那么爆炸,更加区分,并可作为持续的视觉身份。


这可能是风格选择,但在我们主观的观点中,为了激进的病毒点击率优化,Nano Banana 2的电影强度更具优势。


真实图像生成:多约束准确性


最后的测试测量每个模型在跟随详细、多元素提示时的精确度,没有违反或误解任何约束。


简报要求:一位32岁女性建筑师的黄昏电影肖像,穿着米色风衣和圆形眼镜,左手拿着卷好的蓝图,背景是稍微模糊的城市天际线,金色时光的光线与柔和的边缘光,模拟50mm镜头的浅景深,纵向4:5的纵横比,真实的皮肤纹理和微妙的胶卷颗粒。列表中的每个元素都是可以独立失败的约束。


Nano:




Nano生成了一位面朝远方的白人女性——这一叙述选择并没有在提示中指定,暗示着相较于严格遵循约束,它更倾向于创意解释。


米色风衣、圆形眼镜和左手卷蓝图都被正确渲染。屋顶和模糊的天际线存在且空间上合理。


金色时光的光线存在,但相比于提示所要求的温暖色调略显凉爽。边缘光稍显含蓄而非清晰。景深表现良好,但空间压缩感觉更接近35mm到40mm的模拟,而非真实的50mm。


胶卷颗粒极少,几乎无法察觉。皮肤纹理真实,但带有美学训练的扩散系统常见的轻微平滑偏见。整体执行扎实,但在某些地方模型自作选择进行了悄然替代。


Seedream:




Seedream生成了一位正面朝摄像机的亚洲女性——这是一个对未指定视线方向的提示的中性默认值。


所有指定元素都存在并正确实施。金色时光的温暖感更为真实(可能甚至夸大),边缘光在主体和背景之间形成了清晰的分界,符合提示的意图。


景深执行和焦距压缩更贴近真实的50mm模拟,主体与背景的比例自然。皮肤纹理准确,微对比保持更好,平滑伪影比Nano Banana的输出少。


不过,其中一个蓝图生成不正确,似乎更像是一种伪影而非生成中的正确元素。


在构图上,Seedream的结果更为中心和技术精确,附加解释较少,但Nano Banana生成的图像更加真实。


你可能想考虑的一个一致性缺陷


在涉及大量连续生成的扩展API会话中,这两种模型表现出降级,而这种降级在工作流程开始时并不存在。


Seedream开始生成模糊、不清晰的面孔,而在早期生成中清晰呈现的主体则模糊了。Nano则完全失去了主体身份,生成的角色与会话开始时确立的主体没有任何一致关系。


这两种模型似乎在会话时间延长时降低了其推理深度——好像它们在执行每次生成时花费的精力越来越少,而它们已经生成的越多。


这是否是故意的计算限制,在繁重的API流量下的负载平衡行为,或是架构中的某种原因,从外部来看并不明确。


但这足够一致,值得在任何长生成链的生产管线中考虑。两种模型在会话开始时表现最佳。在持续高产时,都会出现降级。


理想情况下,与其进行连续的迭代,不如请模型在单个迭代中给出合理数量的编辑,以避免降级。


但这是一门艺术。一次性进行过多编辑会导致提示遵循不佳;过少则需要连续的迭代,造成主体一致性下降。


结论:谁胜出?


Nano在文本呈现、原始生成速度、生态系统整合和生成能量方面胜出。文本准确性是其最明确的优势——没有模糊字符,没有不一致的字体,没有重复文本。


它生成得又快。它在数十亿人已经使用的产品中运行。而其世界知识整合,让模型在决定渲染内容前搜索网络,生成的输出文本感到有编辑基础而非一般的美学。


如果你的工作流程在谷歌的生态系统内,文本在图像中的准确性无可商谈,或者你需要快速迭代而不与真实人合作,Nano是在这些特定条件下更强大的工具。


Seedream在成本、平台设计、内容灵活性、空间任务的结构严谨性以及多步骤编辑中的角色保留方面胜出。


0.035美元的统一定价使其成为任何生成图像的高效默认选项。Dreamina专为持续创造性会话而建立的界面比Gemini的聊天机器人界面更具连贯性。


宽松的内容政策打开了谷歌不会参与的用例。而对于需要在多个迭代中保持一致身份的工作流程——这是活动工作的核心需求——Seedream在我们进行的每次测试中都表现得更好。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接