Anthropic于周一发布了Claude Sonnet 4.5,称其为“世界上最好的编码模型”,并发布了一套新的开发者工具。该公司表示,该模型可以在复杂的多步骤编码任务上专注超过30小时,并在推理和数学能力上显示出提升。
根据Anthropic的公告,该模型在SWE-bench Verified上得分77.2%,这是一个衡量现实世界软件编码能力的基准。当使用并行测试时间计算时,该得分上升至82%。这使得新模型超越了OpenAI和Google的最佳产品,甚至超越了Anthropic的Claude 4.1 Opus(根据公司的命名方案,Haiku是小型模型,Sonnet是中型模型,而Opus是该系列中最重和最强大的模型)。
图片:Anthropic
Claude Sonnet 4.5在OSWorld基准测试中也表现出色,该基准测试评估AI模型在现实世界计算任务中的表现,得分为61.4%。四个月前,Claude Sonnet 4以42.2%的得分领先。该模型在推理和数学基准测试中显示出能力的提升,并在金融、法律和医学等特定商业领域的专家中表现良好。
我们尝试了该模型,第一次快速测试发现它能够使用零-shot提示生成我们通常的“AI与记者”游戏,而无需迭代、调整或重试。该模型生成功能代码的速度快于Claude 4.1 Opus,同时保持了顶级的输出质量。它创建的应用程序在视觉上与OpenAI的输出相当,较早的Claude版本通常生成的界面较少精致。
Anthropic与该模型一起发布了几个新功能。Claude Code现在包括检查点,保存进度并允许用户回滚到先前状态。该公司更新了终端界面,并发布了原生VS Code扩展。Claude API获得了上下文编辑功能和一个内存工具,使代理能够运行更长时间并处理更复杂的任务。Claude应用程序现在包括在对话中直接执行代码和创建电子表格、幻灯片和文档的功能。
定价与Claude Sonnet 4保持不变,每百万输入令牌3美元,每百万输出令牌15美元。所有Claude Code更新对所有用户开放,而Claude开发者平台更新,包括Agent SDK,向所有开发者开放。
Anthropic还称Claude Sonnet 4.5为“我们迄今为止最对齐的前沿模型”,表示在减少令人担忧的行为(如谄媚、欺骗、追求权力和鼓励妄想思维)方面取得了实质性进展。该公司还表示,在防御提示注入攻击方面取得了进展,认为这是代理和计算机使用能力用户面临的最严重风险之一。
当然,世界上最著名的AI提示工程师Pliny花了几分钟就破解了它,并生成了药物配方,仿佛这是一件再正常不过的事情。
发布之际,AI公司之间的编码能力竞争愈发激烈。OpenAI上个月发布了GPT-5,而Google的模型在各种基准测试中竞争。这对一些预测市场来说可能是个震惊,直到几小时前,他们几乎完全确定Gemini将是本月最佳模型。
这可能是一场与时间的赛跑。目前,该模型并未出现在排名中,但LM Arena已经宣布它已经可以进行排名。考虑到Claude 4.1 Opus位居第二,而Claude 4.5 Sonnet表现更好,明天的结果可能会相当令人惊讶。
Anthropic还发布了一个名为“与Claude想象”的临时研究预览,供Max订阅者使用五天。在这个实验中,Claude实时生成软件,没有预定的功能或预先编写的代码,随着用户的互动,响应并适应请求。
“你所看到的就是Claude实时创作,”该公司表示。Anthropic将其描述为结合模型与适当基础设施时可能实现的演示。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。