K線
數據鏈上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
語言
  • 简体中文
  • 繁体中文
  • English
全球行情資料應用程式領跑者,致力於更有效率地提供有價值的資訊。

功能

  • 即時行情
  • 特色功能
  • AI網格

服務

  • 資訊內容
  • 開放數據(API)
  • 機構服務

軟體下載

  • PC版
  • Android版
  • iOS版

聯絡我們

  • 聊天室
  • 商務信箱
  • 官方信箱
  • 官方驗證通道

加入社區

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|舊版

从石器时代到文艺复兴:OpenAI 图像生成 2.0 背后的技术突破与产品思考

CN
Techub News
關注
1 小時前
AI 總結,5秒速覽全文

撰文:Techub News 整理

这是 OpenAI 官方播客第 19 期的内容。主持人 Andrew Mayne 与研究员 Kenji Hata、产品负责人 Adele Li 围绕 GPT Image 2.0(即 ImageGen 2.0)展开了一场深度对话。这场对话发生在模型正式上线约两周后——彼时每周生成图像数量已突破 15 亿张,多个使用趋势在全球范围内迅速走红。这不只是一次产品发布复盘,更是一次关于图像生成技术范式转变的坦诚讨论。

从投资人到产品负责人:一个关于角色转换的故事

Adele Li 在加入 OpenAI 之前,整个职业生涯都在做投资。她先后在私募股权机构和 Redpoint Ventures 工作,专注于 AI 与软件领域的早期投资。加入 OpenAI 时,她最初负责的是数据与计算基础设施的建设规划,与图像生成相去甚远。然而在过去半年里,她逐渐转向产品侧,全面负责 ImageGen 的产品工作。

她坦言,产品经理这个角色的本质就是"做需要被做的事",无论那件事是什么。而 ImageGen 这个项目尤其让她得以调动多种能力——既要与 Kenji 这样的研究员紧密协作,也要时刻思考市场的空白在哪里、机会窗口在哪里。

"这已经不是一年前 ImageGen 1.0 发布时的市场了。" Adele 说。如今图像生成赛道上有多个竞争者,ChatGPT 本身也已经是一个截然不同的产品。在这个背景下,思考 ImageGen 在 ChatGPT 生态中的演进角色,是她觉得最有意思的事情之一。

Kenji Hata 同样是大约两年前加入 OpenAI 的。他最初做的是一个音频方向的项目,后来机缘巧合参与到 ImageGen 1.0 的发布前工作中,此后逐渐转为全职投入图像生成研究,一路做到了 2.0。

数据先说话:上线两周,15 亿张图像每周

GPT Image 2.0 正式上线后的两周内,ChatGPT 上的图像生成使用量增长超过 50%,每周生成图像数量突破 15 亿张。与此同时,各类使用趋势在全球范围内迅速蔓延——从亚洲用户热衷的色彩分析和贴纸风格,到美国用户追捧的蜡笔画、涂鸦风格,不一而足。

Adele 认为,这种病毒式传播本身就说明了一个问题:用户几乎是即时就感知到了模型能力的跃升。"视觉传达的反馈是最直接的。" 她说,用户不需要读技术报告,打开模型生成一张图,好不好,一眼就知道。

主持人 Andrew 也表达了同样的感受——这次的能力提升幅度之大,让他觉得与其叫"2.0",不如说是一个全新的范式。那么,这个范式转变究竟是怎么发生的?

三大核心突破:文字、多语言与写实感

Adele 和 Kenji 将 ImageGen 2.0 的能力跃升归结为几个关键维度的同步突破。

第一是文字渲染能力。早期的图像生成模型在处理图中文字时几乎是灾难性的——字母变形、单词错乱、排版混乱。Andrew 半开玩笑地说,早年 DALL-E 生成的"OpenAI"字样,看起来像是黑猩猩写的。而现在,模型可以在图像中清晰、准确地呈现大段文字,甚至是复杂的信息图表。

Kenji 用一个内部测试来量化这种进步:让模型生成一张包含 100 个随机物体的网格图,然后统计正确率。从 DALL-E 3 时代的 5 到 8 个,到 ImageGen 1.0 的约 16 个,再到 1.5 版本稳定在 25 到 36 个,而现在 2.0 版本几乎可以做到接近 100 个全部正确。"这不是突然的飞跃,而是持续稳定的增长。" Kenji 说。

第二是多语言支持。团队在训练过程中专门强化了模型对多种语言的理解与生成能力。上线后,亚洲和欧洲用户的活跃反馈也印证了这一方向的正确性——不同语言环境下的用户都能获得高质量的本地化图像输出。

第三是写实摄影感。这是此前用户反馈最集中的痛点之一:旧模型生成的人物图像往往带有一种"杂志封面式的过度美化感",面部和身体比例失真,缺乏真实感。2.0 版本在这方面做了大量工作,目标是让图像"看起来更像你自己"。Kenji 回忆起第一次看到新模型的检查点输出时的感受:拿它和 ImageGen 1.0 的结果并排一看,根本不需要讨论,高下立判。

他描述的那张图是一个女人站在海边眺望的场景。"我们看着两张图,什么都没说。就是……好,这个赢了。"

速度与质量如何兼得?后训练阶段的关键

Andrew 提出了一个很多人都好奇的问题:模型变得更聪明了,但生成速度并没有变慢,这是怎么做到的?

Kenji 解释说,每一个版本之间都积累了大量工程上的学习。以速度为例,团队做了大量工作来提升模型的"token 效率"——用更少的 token 生成质量更高的图像。这是一个在每个版本迭代中持续优化的过程,而不是靠单一的技术突破实现的。

Adele 则补充了后训练阶段的重要性。她说,训练这个模型时,团队不仅要让模型理解世界知识——科学、概念、数学在图像中如何呈现——还要回答一个更主观的问题:什么叫"好看"?什么叫"有品味"?

这些问题没有标准答案,却直接决定了模型输出的质量上限。为此,团队与大量艺术家、设计师、营销人员紧密合作,试图将这些专业领域的审美判断和最佳实践,蒸馏进模型与用户交互的方式中。

团队还密切关注社交媒体上的用户反馈,将真实世界中的使用问题纳入迭代循环。Kenji 说,这些反馈要么被缓解,要么在下一个版本中被彻底修复。

病毒趋势背后:用 AI 表达"不完美"的自我

上线后涌现的使用趋势中,有一个让团队觉得既意外又有趣:用户拿着这个能力极强的模型,专门去生成那些看起来粗糙、拙劣的"微软画图风格"图像——把名人照片或热门图片"降级"成像素感十足的涂鸦。

Adele 对此有一个很有洞察力的解读:"要让 AI 生成一个'不完美'的东西,其实需要很高的智能。" 这不是模型的失败,恰恰相反,这是模型真正理解了用户意图的体现。

她认为,这背后折射出一种消费者心理趋势:人们渴望真实感、不完美感和怀旧感。蜡笔风格、涂鸦风格、复古像素风——这些走红的提示词,都指向同一个主题:用户想用 AI 展现自己更真实、更好玩的一面,而不只是追求"完美输出"。

"通过 AI 进行自我表达,是我们真正感到兴奋的方向。"Adele 说,这也与 OpenAI 的使命高度契合——让更多人能够表达出那个"以前不可能被表达出来的自己"。

从娱乐到生产力:教育、设计与跨行业渗透

ImageGen 2.0 的另一个重要转变,是它从以娱乐为主的使用场景,向真正的生产力工具迁移。

在教育领域,团队内部有一个专门面向教育工作者的内测频道,覆盖从小学到研究生各个层次的教师。Kenji 分享了一个令他印象深刻的案例:一位生物学教授将研究生级别的教科书内容输入模型,生成了高度精准的图解页面,并表示内容完全正确。

Adele 认为,将复杂概念转化为易于理解的视觉内容,是这个模型最强的能力之一。 她特别提到"个性化学习"这个方向——教师可以用 ImageGen 为不同语言背景、不同偏好的学生生成定制化的学习材料。这是她和团队正在积极探索的方向:如何把 ImageGen 更深度地整合进 ChatGPT 的学习场景中,让概念教学天然附带视觉呈现。

在职场场景中,Adele 透露了一个有趣的内部数据:OpenAI 内部演示文稿中,超过 50% 的幻灯片已经在使用 ImageGen 生成的图像。"图像化沟通的渗透速度,比我们预想的要快得多。"

此外,她还列举了已经在使用 ImageGen 的各类职业群体:房地产经纪人用它生成房源展示图和虚拟装修效果,YouTube 创作者用它制作视频封面和推广素材,艺术家用它与粉丝建立连接,作家用它快速生成社交媒体配图……

主持人 Andrew 也分享了自己的亲身体验:他把自己的书封面丢给模型,让它生成适配不同社交平台尺寸的推广图,第一次生成就拿到了正确的比例和风格。"这感觉像魔法。"

360 度全景、精灵图与 Codex 的协同:涌现能力的惊喜

除了预期中的能力提升,2.0 版本还带来了一些团队自己也没完全预料到的"涌现能力"。

360 度全景图就是其中之一。团队发现,模型在支持任意宽高比生成的过程中,用户开始自发生成超宽全景图,甚至是 360 度环绕风格的图像。团队顺势将这个能力做成了产品功能,现在用户可以在 ChatGPT 的网页和移动端直接生成并沉浸式浏览 360 度全景图。Andrew 第一时间就用它生成了一张"狗打扑克"的 360 度版本,坐在狗的视角里环顾四周。

精灵图(Sprite Sheet)也成了一个意外的爆款使用场景。游戏开发者和独立创作者正在用 ImageGen 生成游戏角色的多姿态精灵图,配合 Codex 的代码生成能力,可以直接从零开始搭建一个带有自定义角色的小游戏。Andrew 描述了他亲眼看到的过程:在 Codex 中说"我想要一只乌鸦",然后看着系统自动调用 ImageGen 工具,迭代生成乌鸦的精灵图,再由 Codex 将其整合进游戏代码。"这就是魔法。"

多图一致性也是 2.0 版本的一个显著进步。Kenji 提到,已经有用户在尝试创作 10 页连贯剧情的漫画书,角色形象和视觉风格在多张图之间保持高度一致。这种能力在以前的工作流中需要大量手动干预和技巧,现在变得更加可靠和流畅。

下一步:创意 Agent 与个人化视觉助手

谈到未来方向,Adele 给出了一个清晰的愿景:创意 Agent(Creative Agent)。

她描述的图景是这样的:一个能够真正理解你的工作方式、审美偏好和目标输出的 AI 助手,可以充当你的私人室内设计师、私人建筑师、私人婚礼策划师——所有这些,都可以在一张图像中得到体现。

这个方向的核心,是将"个人化"真正注入到图像生成的每一个环节中。Adele 以自己的"me-me-me eval"为例:她用 100 张自己、朋友和家人的照片作为评测集,测试模型是否能在正确的场景中插入正确的个性化元素——比如,ChatGPT 记得她有一个弟弟,记得她父母喜欢做什么,那么在生成生日贺卡时,模型能不能把这些信息自然地融入图像?

Kenji 则从研究侧补充说,团队仍在持续优化多图一致性、视觉创作层的整体体验,以及让用户更容易、更快速地获得自己想要的输出。"今天还不完美,但我们知道方向在哪里。"

对于提示词技巧,两人也给出了各自的建议。Adele 推荐用户尝试"ImageGen 思考模式"——在 Pro 或思考模型中,ImageGen 可以联网搜索、分析文件、调用工具,生成质量和构图都会更上一层楼。她建议在这个模式下使用开放式提示词,让模型自己去探索和推理,同时给它一个明确的审美风格作为锚点。Kenji 则更偏个人风格,他喜欢极简主义的信息图表,所以他会明确告诉模型"保持干净、简洁"。

如果说 DALL-E 是图像生成的石器时代,那么 ImageGen 2.0 就是它的文艺复兴——不只是艺术上的进步,而是科学、艺术、建筑、知识与美学的全面融合。这场对话最后,Adele 用这句话作结,而这或许也是理解这个模型最好的方式:它不再只是一个"画图工具",而是一个真正开始理解世界、理解人、理解美的视觉智能体。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

|
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

|
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

Techub News的精選文章

20 分鐘前
谷歌发布首款AI笔记本:从操作系统到智能系统的革命
1 小時前
从“算力竞争”到“国家能力竞争”:Jensen Huang与Ro Khanna谈美国如何赢下AI时代
3 小時前
特朗普2026一季度持仓解读:减持旧科技巨头,押注英伟达等 AI 龙头
查看更多

目錄

|
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

相關文章

avatar
avatarOdaily星球日报
5 分鐘前
上市即熔断,单日暴涨超108%,Cerebras真是“下一个英伟达”?
avatar
avatarTechub News
20 分鐘前
谷歌发布首款AI笔记本:从操作系统到智能系统的革命
avatar
avatarTechub News
1 小時前
从“算力竞争”到“国家能力竞争”:Jensen Huang与Ro Khanna谈美国如何赢下AI时代
avatar
avatarTechub News
3 小時前
特朗普2026一季度持仓解读:减持旧科技巨头,押注英伟达等 AI 龙头
APP下載
Windows
Mac

X

Telegram

Facebook

Reddit

複製鏈接