Anthropic 在 周一 发布了 Claude Opus 4.5,完成了其三款模型的家族,并标志着公司在短短两个月内的第三次重大发布。这款新旗舰模型在编码基准测试中名列前茅,同时大幅降低了价格。
此次发布标志着快速推出的结束,早在九月底就推出了 Claude Sonnet 4.5,十月又推出了 Claude Haiku 4.5。现在,随着 Opus 加入其兄弟模型,Anthropic 为开发者提供了完整的工具包:Opus 用于复杂的生产工作,Sonnet 用于日常任务,Haiku 则用于需要简单逻辑的速度和效率相关任务。
Claude Opus 4.5 在 SWE-bench Verified 上得分 80.9%,这是一个测试真实软件工程任务的基准。这一成绩超越了 OpenAI 的 GPT-5.1-Codex-Max 的 77.9% 和谷歌的 Gemini 3 Pro 的 76.2%。Anthropic 表示,Opus 在其内部性能工程考试中超越了每一位人类候选人——这是一项为期两小时的评估,旨在评估在压力下的判断力。
在 AI 巨头之间,年末的排行榜竞争愈演愈烈。谷歌于 11 月 18 日推出了 Gemini 3 Pro,将其定位为多模态推理的突破。OpenAI 随后在第二天以 GPT-5.1-Codex-Max 进行了反击。
Anthropic 的 Opus 回应在几天后到来,但它带来了一个亮点:每百万输入标记的定价为 5 美元,每百万输出标记的定价为 25 美元,这比之前的 Opus 模型降低了 67%。
阿里巴巴的 Qwen 模型为这场竞争增添了另一个维度。该公司在一月底发布了 Qwen2.5-Max,拥有超过 20 万亿的训练标记,声称在关键基准测试中超越了 DeepSeek-V3。Qwen3-Max 于九月推出,参数超过 1 万亿,在 LMArena 上排名全球第三,并在深度研究、跨模态推理或东语言工作流等不同任务中表现出色。尽管 Qwen 模型在西方市场仍相对不为人知,但它们代表了中国在美国芯片出口限制下推动 AI 自主发展的努力。
该定价介于 OpenAI 最新的 GPT-5.1(1.25 美元/10 美元)和 Anthropic 较旧的 Opus 4.1(15 美元/75 美元)之间,尽管仍高于 Gemini 3 Pro 的 2 美元/12 美元。这一降价信号表明,市场压力促使领先的 AI 实验室不仅在能力上竞争,还在使前沿智能经济上可行以实现规模部署。
Claude 的最新产品仍然比许多亚洲竞争对手贵,但也更具能力。因此,用户现在可以在成本效益和纯技术能力之间进行选择。
Sonnet 4.5 于 9 月 30 日发布,以适中的成本带来了最先进的编码和代理能力,已经在特定任务上优于 Opus 4.1。更简单的 Haiku 4.5 于 10 月 15 日揭晓。现在,Opus 4.5 位于顶端,处理最困难的推理和最长的任务。
与 Sonnet 和 GPT-5 类似,Claude Opus 4.5 使用了 Anthropic 所称的“混合推理”架构——一个单一模型,既用于直接推理,也用于思维链处理。它支持 200,000 个标记的上下文窗口,并可以输出多达 64,000 个标记。该模型的知识截止日期为 2025 年 3 月,略早于 Sonnet 的 1 月日期。
开发者 Simon Willison 在周末广泛测试了 Opus 4.5,使用它重构了他的一个项目。该模型处理了 39 个文件中的 20 次提交,增加了 2,022 行,删除了 1,173 行。“这显然是一个优秀的新模型,”Willison 写道,尽管他指出,之后恢复使用 Sonnet 4.5 并没有显著降低他的生产力。
“我并不是说新模型在 Sonnet 4.5 上没有改进——但我不能自信地说我提出的挑战能够识别出两者之间能力的显著差异,”他写道。
开发者、YouTuber 以及 AI 平台 T3 Chat 的首席执行官 Theo Browne 称 Claude Opus 4.5 为“疯狂”,并在一段 视频评测 中补充道,它“绝对是有史以来最好的编码模型。”
竞争格局变得越来越拥挤。谷歌的 Gemini 3 Pro 上周占据了头条新闻,在 LMArena 上得分 1501,并获得了 Salesforce 首席执行官 Marc Benioff 的赞扬,他表示他将抛弃 ChatGPT,转而使用谷歌的模型。这一公告使 Alphabet 的股价上涨超过 6%,并 据报道 让 OpenAI 首席执行官 Sam Altman 感到不安,他告诉同事 Gemini 将造成“暂时的经济逆风。”
微软和 Nvidia 上周宣布 对 Anthropic 进行数十亿美元的投资,使这家初创公司的估值达到约 3500 亿美元。这些交易包括扩展的 Azure 集成和用于训练和部署 Claude 模型的 Nvidia 驱动基础设施。
Opus 4.5 现已通过 Anthropic 的 API、AWS Bedrock、Google Vertex AI 以及 Claude 的网页和桌面应用程序立即提供。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。