从石器时代到文艺复兴：OpenAI 图像生成 2.0 背后的技术突破与产品思考

撰文：Techub News 整理

这是 OpenAI 官方播客第 19 期的内容。主持人 Andrew Mayne 与研究员 Kenji Hata、产品负责人 Adele Li 围绕 GPT Image 2.0（即 ImageGen 2.0）展开了一场深度对话。这场对话发生在模型正式上线约两周后——彼时每周生成图像数量已突破 15 亿张，多个使用趋势在全球范围内迅速走红。这不只是一次产品发布复盘，更是一次关于图像生成技术范式转变的坦诚讨论。

从投资人到产品负责人：一个关于角色转换的故事

Adele Li 在加入 OpenAI 之前，整个职业生涯都在做投资。她先后在私募股权机构和 Redpoint Ventures 工作，专注于 AI 与软件领域的早期投资。加入 OpenAI 时，她最初负责的是数据与计算基础设施的建设规划，与图像生成相去甚远。然而在过去半年里，她逐渐转向产品侧，全面负责 ImageGen 的产品工作。

她坦言，产品经理这个角色的本质就是"做需要被做的事"，无论那件事是什么。而 ImageGen 这个项目尤其让她得以调动多种能力——既要与 Kenji 这样的研究员紧密协作，也要时刻思考市场的空白在哪里、机会窗口在哪里。

"这已经不是一年前 ImageGen 1.0 发布时的市场了。" Adele 说。如今图像生成赛道上有多个竞争者，ChatGPT 本身也已经是一个截然不同的产品。在这个背景下，思考 ImageGen 在 ChatGPT 生态中的演进角色，是她觉得最有意思的事情之一。

Kenji Hata 同样是大约两年前加入 OpenAI 的。他最初做的是一个音频方向的项目，后来机缘巧合参与到 ImageGen 1.0 的发布前工作中，此后逐渐转为全职投入图像生成研究，一路做到了 2.0。

数据先说话：上线两周，15 亿张图像每周

GPT Image 2.0 正式上线后的两周内，ChatGPT 上的图像生成使用量增长超过 50%，每周生成图像数量突破 15 亿张。与此同时，各类使用趋势在全球范围内迅速蔓延——从亚洲用户热衷的色彩分析和贴纸风格，到美国用户追捧的蜡笔画、涂鸦风格，不一而足。

Adele 认为，这种病毒式传播本身就说明了一个问题：用户几乎是即时就感知到了模型能力的跃升。"视觉传达的反馈是最直接的。" 她说，用户不需要读技术报告，打开模型生成一张图，好不好，一眼就知道。

主持人 Andrew 也表达了同样的感受——这次的能力提升幅度之大，让他觉得与其叫"2.0"，不如说是一个全新的范式。那么，这个范式转变究竟是怎么发生的？

三大核心突破：文字、多语言与写实感

Adele 和 Kenji 将 ImageGen 2.0 的能力跃升归结为几个关键维度的同步突破。

第一是文字渲染能力。早期的图像生成模型在处理图中文字时几乎是灾难性的——字母变形、单词错乱、排版混乱。Andrew 半开玩笑地说，早年 DALL-E 生成的"OpenAI"字样，看起来像是黑猩猩写的。而现在，模型可以在图像中清晰、准确地呈现大段文字，甚至是复杂的信息图表。

Kenji 用一个内部测试来量化这种进步：让模型生成一张包含 100 个随机物体的网格图，然后统计正确率。从 DALL-E 3 时代的 5 到 8 个，到 ImageGen 1.0 的约 16 个，再到 1.5 版本稳定在 25 到 36 个，而现在 2.0 版本几乎可以做到接近 100 个全部正确。"这不是突然的飞跃，而是持续稳定的增长。" Kenji 说。

第二是多语言支持。团队在训练过程中专门强化了模型对多种语言的理解与生成能力。上线后，亚洲和欧洲用户的活跃反馈也印证了这一方向的正确性——不同语言环境下的用户都能获得高质量的本地化图像输出。

第三是写实摄影感。这是此前用户反馈最集中的痛点之一：旧模型生成的人物图像往往带有一种"杂志封面式的过度美化感"，面部和身体比例失真，缺乏真实感。2.0 版本在这方面做了大量工作，目标是让图像"看起来更像你自己"。Kenji 回忆起第一次看到新模型的检查点输出时的感受：拿它和 ImageGen 1.0 的结果并排一看，根本不需要讨论，高下立判。

他描述的那张图是一个女人站在海边眺望的场景。"我们看着两张图，什么都没说。就是……好，这个赢了。"

速度与质量如何兼得？后训练阶段的关键

Andrew 提出了一个很多人都好奇的问题：模型变得更聪明了，但生成速度并没有变慢，这是怎么做到的？

Kenji 解释说，每一个版本之间都积累了大量工程上的学习。以速度为例，团队做了大量工作来提升模型的"token 效率"——用更少的 token 生成质量更高的图像。这是一个在每个版本迭代中持续优化的过程，而不是靠单一的技术突破实现的。

Adele 则补充了后训练阶段的重要性。她说，训练这个模型时，团队不仅要让模型理解世界知识——科学、概念、数学在图像中如何呈现——还要回答一个更主观的问题：什么叫"好看"？什么叫"有品味"？

这些问题没有标准答案，却直接决定了模型输出的质量上限。为此，团队与大量艺术家、设计师、营销人员紧密合作，试图将这些专业领域的审美判断和最佳实践，蒸馏进模型与用户交互的方式中。

团队还密切关注社交媒体上的用户反馈，将真实世界中的使用问题纳入迭代循环。Kenji 说，这些反馈要么被缓解，要么在下一个版本中被彻底修复。

病毒趋势背后：用 AI 表达"不完美"的自我

上线后涌现的使用趋势中，有一个让团队觉得既意外又有趣：用户拿着这个能力极强的模型，专门去生成那些看起来粗糙、拙劣的"微软画图风格"图像——把名人照片或热门图片"降级"成像素感十足的涂鸦。

Adele 对此有一个很有洞察力的解读："要让 AI 生成一个'不完美'的东西，其实需要很高的智能。" 这不是模型的失败，恰恰相反，这是模型真正理解了用户意图的体现。

她认为，这背后折射出一种消费者心理趋势：人们渴望真实感、不完美感和怀旧感。蜡笔风格、涂鸦风格、复古像素风——这些走红的提示词，都指向同一个主题：用户想用 AI 展现自己更真实、更好玩的一面，而不只是追求"完美输出"。

"通过 AI 进行自我表达，是我们真正感到兴奋的方向。"Adele 说，这也与 OpenAI 的使命高度契合——让更多人能够表达出那个"以前不可能被表达出来的自己"。

从娱乐到生产力：教育、设计与跨行业渗透

ImageGen 2.0 的另一个重要转变，是它从以娱乐为主的使用场景，向真正的生产力工具迁移。

在教育领域，团队内部有一个专门面向教育工作者的内测频道，覆盖从小学到研究生各个层次的教师。Kenji 分享了一个令他印象深刻的案例：一位生物学教授将研究生级别的教科书内容输入模型，生成了高度精准的图解页面，并表示内容完全正确。

Adele 认为，将复杂概念转化为易于理解的视觉内容，是这个模型最强的能力之一。 她特别提到"个性化学习"这个方向——教师可以用 ImageGen 为不同语言背景、不同偏好的学生生成定制化的学习材料。这是她和团队正在积极探索的方向：如何把 ImageGen 更深度地整合进 ChatGPT 的学习场景中，让概念教学天然附带视觉呈现。

在职场场景中，Adele 透露了一个有趣的内部数据：OpenAI 内部演示文稿中，超过 50% 的幻灯片已经在使用 ImageGen 生成的图像。"图像化沟通的渗透速度，比我们预想的要快得多。"

此外，她还列举了已经在使用 ImageGen 的各类职业群体：房地产经纪人用它生成房源展示图和虚拟装修效果，YouTube 创作者用它制作视频封面和推广素材，艺术家用它与粉丝建立连接，作家用它快速生成社交媒体配图……

主持人 Andrew 也分享了自己的亲身体验：他把自己的书封面丢给模型，让它生成适配不同社交平台尺寸的推广图，第一次生成就拿到了正确的比例和风格。"这感觉像魔法。"

360 度全景、精灵图与 Codex 的协同：涌现能力的惊喜

除了预期中的能力提升，2.0 版本还带来了一些团队自己也没完全预料到的"涌现能力"。

360 度全景图就是其中之一。团队发现，模型在支持任意宽高比生成的过程中，用户开始自发生成超宽全景图，甚至是 360 度环绕风格的图像。团队顺势将这个能力做成了产品功能，现在用户可以在 ChatGPT 的网页和移动端直接生成并沉浸式浏览 360 度全景图。Andrew 第一时间就用它生成了一张"狗打扑克"的 360 度版本，坐在狗的视角里环顾四周。

精灵图（Sprite Sheet）也成了一个意外的爆款使用场景。游戏开发者和独立创作者正在用 ImageGen 生成游戏角色的多姿态精灵图，配合 Codex 的代码生成能力，可以直接从零开始搭建一个带有自定义角色的小游戏。Andrew 描述了他亲眼看到的过程：在 Codex 中说"我想要一只乌鸦"，然后看着系统自动调用 ImageGen 工具，迭代生成乌鸦的精灵图，再由 Codex 将其整合进游戏代码。"这就是魔法。"

多图一致性也是 2.0 版本的一个显著进步。Kenji 提到，已经有用户在尝试创作 10 页连贯剧情的漫画书，角色形象和视觉风格在多张图之间保持高度一致。这种能力在以前的工作流中需要大量手动干预和技巧，现在变得更加可靠和流畅。

下一步：创意 Agent 与个人化视觉助手

谈到未来方向，Adele 给出了一个清晰的愿景：创意 Agent（Creative Agent）。

她描述的图景是这样的：一个能够真正理解你的工作方式、审美偏好和目标输出的 AI 助手，可以充当你的私人室内设计师、私人建筑师、私人婚礼策划师——所有这些，都可以在一张图像中得到体现。

这个方向的核心，是将"个人化"真正注入到图像生成的每一个环节中。Adele 以自己的"me-me-me eval"为例：她用 100 张自己、朋友和家人的照片作为评测集，测试模型是否能在正确的场景中插入正确的个性化元素——比如，ChatGPT 记得她有一个弟弟，记得她父母喜欢做什么，那么在生成生日贺卡时，模型能不能把这些信息自然地融入图像？

Kenji 则从研究侧补充说，团队仍在持续优化多图一致性、视觉创作层的整体体验，以及让用户更容易、更快速地获得自己想要的输出。"今天还不完美，但我们知道方向在哪里。"

对于提示词技巧，两人也给出了各自的建议。Adele 推荐用户尝试"ImageGen 思考模式"——在 Pro 或思考模型中，ImageGen 可以联网搜索、分析文件、调用工具，生成质量和构图都会更上一层楼。她建议在这个模式下使用开放式提示词，让模型自己去探索和推理，同时给它一个明确的审美风格作为锚点。Kenji 则更偏个人风格，他喜欢极简主义的信息图表，所以他会明确告诉模型"保持干净、简洁"。

如果说 DALL-E 是图像生成的石器时代，那么 ImageGen 2.0 就是它的文艺复兴——不只是艺术上的进步，而是科学、艺术、建筑、知识与美学的全面融合。这场对话最后，Adele 用这句话作结，而这或许也是理解这个模型最好的方式：它不再只是一个"画图工具"，而是一个真正开始理解世界、理解人、理解美的视觉智能体。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。