OpenAI推出GPT-5.2,伴随扩展的重大合同

CN
Decrypt
关注
9小时前

就在上一次重大发布几周后,OpenAI 正在积极将其旗舰产品 ChatGPT 从消费者新奇产品转变为不可或缺的企业强者。

周四,该公司发布了GPT-5.2,这是一个新的大型语言模型,声称其速度更快、可靠性更高,并且旨在处理复杂的专业工作流程。

这一更新表明,OpenAI 正在超越家庭作业帮助和一般查询,旨在将其技术嵌入商业世界,成为一种必不可少的日常工具,这一点通过其与美国政府迪士尼的丰厚交易得到了证明。

“我们设计 GPT-5.2 是为了为人们解锁更多的经济价值,”OpenAI 在一份声明中表示。“它在创建电子表格、制作演示文稿、编写代码、感知图像、理解长上下文、使用工具和处理复杂的多步骤项目方面表现更好。”

工作场所自动化的新基准

在宣传 GPT-5.2 的性能时,该公司推出了一个专有评估基准 GDPval,模拟了 44 种职业的任务。

该公司声称,GPT-5.2 在大约 71% 的比较中与人类工作者的表现相匹配或超越。

“在 GDPval 上,思维模型在 70.9% 的常见专业任务(如电子表格、演示文稿和文档创建)中击败或平局人类专家,”OpenAI 应用程序首席执行官 Fidji Simo 在 X 上写道。“它在一般智能、编写代码、工具调用、视觉和长上下文理解方面也表现更好,因此可以为人们解锁更多的经济价值。”

尚不清楚该基准是否经过外部审查,行业专家仍在等待对这些声明的独立验证。

技术细分:三种模型应对三种工作

GPT-5.2 于周四在付费订阅层中可用,API 访问同日开放。开发者现在可以选择三种不同的版本,每种版本都针对不同的专业需求进行了优化。

  • 快速:用于快速、简单的专业任务。

  • 思维:用于更复杂的多步骤任务。

  • 专业:顶级模型,专为密集研究和长篇项目而构建。

API 定价设定为每百万个输入标记 1.75 美元,每百万个输出标记 14 美元。

除了 GDPval 基准外,GPT-5.2 在已建立的技术测试中表现出色,在 GPQA Diamond 和 FrontierMath 上得分更高。它还在编码、数据分析和实验设计等要求高的任务中表现出更可靠的结果

在公告中,该公司展示了几条来自早期测试者的积极反馈声明。

更强大的工作场所 AI 的发布恰逢已经紧张的劳动环境。

企业高管们似乎普遍持乐观态度,最近的一项 Just Capital 调查显示,93% 的商业领袖认为 AI 是一种积极的力量。然而,同一项研究发现,近一半的美国人预计该技术将消除工作岗位,而高管们对此的担忧似乎较少。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接