OpenAI 和 Anthropic 在周四相隔不到一小时内分别推出了各自产品线的新旗舰 AI 模型,突显出领先开发者之间日益激烈的竞争,以主导企业软件和高级编码工具。
Anthropic 宣布了 Claude Opus 4.6,强调其在长上下文推理和基于代理的工作流程方面的进展,而 OpenAI 随后发布了 GPT-5.3 Codex,这是一个针对代理编码和软件开发进行优化的模型。
几乎同时的发布突显了竞争对手在争夺与大型企业客户签订长期合同的竞赛中迭代的速度。
基准结果表明,这两个模型在不同的优势上进行了优化。
根据两家公司发布的数据,Claude Opus 4.6 在与法律和金融推理相关的任务上表现更强,而 GPT-5.3 Codex 在代理编码测试和效率指标上表现更佳。
这些发布正值投资者重新评估传统软件提供商的前景之际,本周几家信息和专业服务公司的股价下跌,因担忧 AI 原生平台可能会侵蚀对既有企业工具的需求。
Anthropic 表示 Claude Opus 4.6 在长上下文推理和专业任务上取得了进展,提到其具有 100 万个标记的上下文窗口和在复杂信息检索基准 MRCR v2 上的 76% 得分。
该公司表示,该模型在金融和法律任务上也优于早期版本,并引入了“代理团队”,允许多个 AI 代理并行进行编码和文档工作。
OpenAI 随后发布 GPT-5.3 Codex,将其定位为一个针对代理编码和研究进行优化的模型。
OpenAI 表示,Codex 在代理编码基准 Terminal-Bench 2.0 上得分 77.3%,而 Claude Opus 4.6 得分 65.4%,并且在使用更少的标记的同时更快地完成任务。
OpenAI 还表示,Codex 的早期版本在内部用于帮助调试训练和管理部署,标志着模型首次在加速自身开发中发挥直接作用。
综合来看,结果表明这两个模型都没有明显的整体领先,性能优势取决于企业是否优先考虑专业推理或自主软件开发。
谷歌预计将在未来几个月推出其 Gemini 模型的更新,而其他 AI 开发者,包括 DeepSeek,也在准备新版本,进一步加快了该领域的竞争步伐。
尽管如此,仅凭基准结果不太可能决定市场领导地位,因为更广泛的采用和企业部署日益影响竞争格局。
随着竞争持续给对手施加压力,时间将证明基于代理的工作流程是否会成为经济活动的核心组成部分。OpenAI 和 Anthropic 当然对此寄予厚望。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。