OpenAI在星期四推出了GPT-5.5,基本上将其定位为针对离散计算机使用的模型。它可以编写和调试代码,浏览网页,填写电子表格,并能够在多步骤任务中持续工作,而无需人类每一步都进行监控。
OpenAI表示,此版本今天已向Plus、Pro、Business和Enterprise用户推出,适用于ChatGPT和Codex。
“我们推出了GPT-5.5,这是我们迄今为止最聪明、最直观的模型,也是迈向通过计算机完成工作的全新方式的下一步。”OpenAI在公告中表示。“在离散编码、计算机使用、知识工作和早期科学研究等领域,进步特别显著——这些领域的进展依赖于跨上下文推理和随着时间采取行动。
OpenAI的大头条新闻:GPT-5.5在可测量上比其前身GPT-5.4更聪明,并且速度不慢。在实际服务中,与GPT-5.4相匹配的每个标记延迟,同时在基准测试中获得更高分数,这种效率改进通常是不会发生的。更大的模型在相同硬件下运行时往往会更慢。
在Terminal-Bench 2.0上,该测试模型处理需要规划和迭代工具使用的复杂命令行工作流程的能力,GPT-5.5得分82.7%。Claude Opus 4.7得分69.4%,而Gemini 3.1 Pro的得分为68.5%。这不是一个微不足道的领先。
在GDPval上,这是一项测试44种真实职业(从金融到法律研究再到产品管理)知识工作的基准,GPT-5.5在84.9%的比较中与行业专业人士持平或超越。
图片:OpenAI
它也是一个相当不错的编码者,正如预期的那样。在Expert-SWE上,这是一个针对中位估计人类完成时间为20小时的长远编码任务的内部基准,GPT-5.5的表现优于GPT-5.4。在SWE-Bench Pro上,它对现实世界的GitHub问题解决的评分为58.6%。Claude Opus 4.7得分更高,为64.3%,但OpenAI声称可能是因为“Anthropic报告一部分问题显示出记忆的迹象。”
此次发布是在自主动AI繁荣以来快速发展的市场中推出的。GPT-5.4在GPT-5.3发布仅两天后到来,而小米从MiMo-V2-Pro到MiMo 2.5 Pro——具有全面的多模态能力——仅用了大约五周的时间。GPT-5.4和GPT-5.5之间的间隔约为七周。这就是现在的节奏。
但这个模型会对那些并不总是在编码下一个大事件的普通用户有所帮助吗?如果您是免费用户,不会:GPT-5.5不会向免费用户推出。如果您每月支付20美元的Plus用户,它今天上线。我们尝试在我们的Pro账户下测试,但该模型未立即可用。
更重要的可能是GPT-5.5在Codex内部的表现——OpenAI的离散编码环境——在这里它被证明更强大。“我真的感受到与更高智能合作的感觉,几乎有一种尊重的感觉。”MagicPath首席执行官Pietro Schirano在OpenAI分享的引用中说道。
GPT-5.5 Pro,旨在处理更难、更高精度的工作,正在单独向ChatGPT中的Pro、Business和Enterprise用户推出。在BrowseComp上,该测试模型跟踪网上难以找到的信息的能力,GPT-5.5 Pro得分90.1%,领先于Gemini 3.1 Pro的85.9%。
根据人工分析指数,该模型也是平均最智能的。GPT 5.5报告更高效和更有用的标记使用,整体产生更好的结果。
图片:OpenAI
然而,定价可能会让一些用户震惊。API在启动时将收取每百万个输入标记5美元和每百万个输出标记30美元,OpenAI表示这将“非常快”推出。API中的GPT-5.5 Pro将收取每百万个输入标记30美元和每百万个输出标记180美元。
这些数字高于GPT-5.4的每百万个输入标记2.50美元和每百万个输出标记15.00美元,而GPT-5.5 Pro的定价仍与GPT-5.4 Pro相同。
话虽如此,OpenAI首席执行官山姆·奥特曼在X上辩称,标记效率的提高抵消了成本——GPT-5.5用更少的标记完成相同的Codex任务,这意味着即使在每个标记费率较高的情况下,运行成本也较低。
仅作比较,小米MiMo v2.5 Pro在每百万个输入和输出标记中收费1美元和3美元,Minimax M2.7分别收费0.30美元和1.20美元,而Kimi K2.5每百万个标记需要0.44美元和2.00美元。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。