- Anthropic 于 2026 年 4 月 16 日推出了 Claude Opus 4.7,在 SWE-bench Verified 测试中获得了 87.6% 的分数。
- 人工智能行业朝着智能自主的转变使 Opus 4.7 在复杂编码和金融领域超过了 GPT-5.4。
- 由于新模型使用的令牌数量比之前的 4.6 版本多出 1.0 到 1.35 倍,开发者必须管理成本。
这家位于旧金山的人工智能初创公司将此次发布定位为其迄今为止能力最强的通用可用模型。它作为对两个月前二月发布的 Opus 4.6 版本的有针对性的升级。
尽管受限的 Claude Mythos 预览版仍在进行网络安全的有限测试,但 Opus 4.7 是为更广泛的市场而构建的。它专注于软件工程、长期任务和复杂财务分析。
Anthropic 发布的性能指标显示,该模型在自主工作流程中取得了显著进展。在 SWE-bench Verified 编码基准测试中,新模型达到了 87.6%,高于 4.6 版本的 80.8%。

Anthropic 基准测试。
该模型还在多个关键类别中超越了主要竞争对手。Anthropic 报告称,Opus 4.7 在工具使用和计算机交互测试中超越了 OpenAI 的 GPT-5.4 和 Google 的 Gemini 3.1 Pro。
最明显的变化之一是模型视觉能力的大幅升级。Claude Opus 4.7 现在能够处理长边高达 2,576 像素的图像,是之前分辨率限制的三倍。
这种视觉提升使得人工智能能够更好地解读复杂的图表、用户界面和技术图表。然而,公司指出,高分辨率图像会消耗更多令牌,可能会增加高-volume 用户的成本。
Anthropic 还在其 Claude Code 环境中引入了一个名为 /ultrareview 的新功能。该工具允许专业用户和最高级用户运行多代理会话,以识别软件中的错误和设计缺陷。
对于金融专业人士,该模型在经济建模方面表现出更高的严谨性。在一般金融模块中,它达到了 0.813 的分数,代表着比之前版本的 0.767 评级有了实质性的提升。
该模型的定价结构保持不变,每百万输入令牌 5 美元,每百万输出令牌 25 美元。为了帮助管理长时间自主运行期间的费用,Anthropic 在公共测试版中添加了任务预算功能。
来自开发者社区的早期反馈显示,该模型在遵循指令时更加字面化。这一变化可能需要用户重新调整已针对 Claude 系列旧版本优化的现有提示。
“Claude 4.7 上线了,使用它就像进入 F1 车。更强大的动力,完全按照你的指示以全速运行。你的工作是选择方向并转弯,”一位用户在 X 上写道。
一些测试人员观察到,更新后的分词器在相同的输入上可以使用多达 1.35 倍的令牌。虽然这可能导致快速耗尽限制,但公司认为每个任务的性能可以证明这种使用是合理的。
安全性仍然是核心焦点,因为该模型包含新的自动化保护措施,以阻止高风险的网络安全使用。Anthropic 的系统卡突出了更高的诚实性和更强的抵抗产生有害内容的能力。
该模型现在可通过 Claude API、Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 获取。它保留了今年年初推出的 100 万令牌上下文窗口。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。