K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

Anthropic声称“世界上最好的编码模型”与Claude Sonnet 4.5——我们进行了测试

CN
Decrypt
关注
6个月前
AI 总结,5秒速览全文

Anthropic于周一发布了Claude Sonnet 4.5,称其为“世界上最好的编码模型”,并发布了一套新的开发者工具。该公司表示,该模型可以在复杂的多步骤编码任务上专注超过30小时,并在推理和数学能力上显示出提升。

根据Anthropic的公告,该模型在SWE-bench Verified上得分77.2%,这是一个衡量现实世界软件编码能力的基准。当使用并行测试时间计算时,该得分上升至82%。这使得新模型超越了OpenAI和Google的最佳产品,甚至超越了Anthropic的Claude 4.1 Opus(根据公司的命名方案,Haiku是小型模型,Sonnet是中型模型,而Opus是该系列中最重和最强大的模型)。


图片:Anthropic

Claude Sonnet 4.5在OSWorld基准测试中也表现出色,该基准测试评估AI模型在现实世界计算任务中的表现,得分为61.4%。四个月前,Claude Sonnet 4以42.2%的得分领先。该模型在推理和数学基准测试中显示出能力的提升,并在金融、法律和医学等特定商业领域的专家中表现良好。

我们尝试了该模型,第一次快速测试发现它能够使用零-shot提示生成我们通常的“AI与记者”游戏,而无需迭代、调整或重试。该模型生成功能代码的速度快于Claude 4.1 Opus,同时保持了顶级的输出质量。它创建的应用程序在视觉上与OpenAI的输出相当,较早的Claude版本通常生成的界面较少精致。

Anthropic与该模型一起发布了几个新功能。Claude Code现在包括检查点,保存进度并允许用户回滚到先前状态。该公司更新了终端界面,并发布了原生VS Code扩展。Claude API获得了上下文编辑功能和一个内存工具,使代理能够运行更长时间并处理更复杂的任务。Claude应用程序现在包括在对话中直接执行代码和创建电子表格、幻灯片和文档的功能。

定价与Claude Sonnet 4保持不变,每百万输入令牌3美元,每百万输出令牌15美元。所有Claude Code更新对所有用户开放,而Claude开发者平台更新,包括Agent SDK,向所有开发者开放。

Anthropic还称Claude Sonnet 4.5为“我们迄今为止最对齐的前沿模型”,表示在减少令人担忧的行为(如谄媚、欺骗、追求权力和鼓励妄想思维)方面取得了实质性进展。该公司还表示,在防御提示注入攻击方面取得了进展,认为这是代理和计算机使用能力用户面临的最严重风险之一。

当然,世界上最著名的AI提示工程师Pliny花了几分钟就破解了它,并生成了药物配方,仿佛这是一件再正常不过的事情。

发布之际,AI公司之间的编码能力竞争愈发激烈。OpenAI上个月发布了GPT-5,而Google的模型在各种基准测试中竞争。这对一些预测市场来说可能是个震惊,直到几小时前,他们几乎完全确定Gemini将是本月最佳模型。

这可能是一场与时间的赛跑。目前,该模型并未出现在排名中,但LM Arena已经宣布它已经可以进行排名。考虑到Claude 4.1 Opus位居第二,而Claude 4.5 Sonnet表现更好,明天的结果可能会相当令人惊讶。

Anthropic还发布了一个名为“与Claude想象”的临时研究预览,供Max订阅者使用五天。在这个实验中,Claude实时生成软件,没有预定的功能或预先编写的代码,随着用户的互动,响应并适应请求。

“你所看到的就是Claude实时创作,”该公司表示。Anthropic将其描述为结合模型与适当基础设施时可能实现的演示。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

复活节狂欢,瓜分1万USDT!
广告
|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

Decrypt的精选文章

7秒钟前
Quantum-Powered Crypto Mining Is Here—But It Won\\\'t Help You Mine Bitcoin
9分钟前
Coinbase获得银行监管机构的有条件批准——但并不推出银行
26分钟前
以太坊创始人 Vitalik Buterin 详细介绍了他的“私人”和“安全”的人工智能设置
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatarDecrypt
7秒钟前
Quantum-Powered Crypto Mining Is Here—But It Won\\\'t Help You Mine Bitcoin
avatar
avatarbitcoin.com
6分钟前
Coinbase与Ripple、Circle共同获得条件性的OCC国家信托章程批准
avatar
avatarcoindesk
7分钟前
CFTC 起诉伊利诺伊州,因该州对预测市场发出的停止和撤销信件。
avatar
avatarDecrypt
9分钟前
Coinbase获得银行监管机构的有条件批准——但并不推出银行
avatar
avatarcoindesk
14分钟前
Coinbase获得初步银行监管机构的认可,以获得信托牌照,推动保管服务的发展
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接