人类的克劳德索奈特5以极低的价格逼近作品4.8

Anthropic 于星期二发布了 Claude Sonnet 5，称其为“迄今为止最具自主性的 Sonnet 模型。”它是 Free 和 Pro 用户的默认模型，已在 Max、Team 和 Enterprise 计划中上线，常见于 Claude Code 和 API 中。与以前的 Sonnet 发布不同，这一次的型号是与之前的 Opus 并列，而不是落在其后。

在发布博文中，公司表示 Sonnet 5 的性能“接近 Opus 4.8，但价格更低。”开发人员可以在两个模型之间滑动努力拨轮，或在网页应用中选择不同的级别，以便在同一任务上用成本换取准确性，覆盖那些过去需要 Opus 费率的工作。

在 SWE-bench Pro——一个从积极维护的存储库中提取问题的编码基准，用解决率表示——Sonnet 5 取得了 63.2% 的成绩，而 Sonnet 4.6 的成绩为 58.1%。

在 GDPval-AA v2，一个通过盲配对 Elo 评分对 44 种职业进行打分的人工分析基准中，它的得分为 1,618，和 Opus 4.8 的 1,616 处于统计平局状态。Sonnet 5 和 Opus 4.8 在人类最后考试中的差异几乎可以忽略不计：57.4% 对比 57.9%。

Sonnet 5 还配备了更新的分词器——将文本分割成模型计费单元的系统——并且更加贪婪，将相同输入转化为消耗更多令牌的任务。“Sonnet 5 是对 Sonnet 4.6 的升级，但它使用了更新的分词器，这改变了模型处理文本的方式，从而提高了性能。”Anthropic 在一个小脚注中写道。“因此，相同输入可能映射为更多令牌：大约 1.0–1.35 倍，具体取决于内容类型。”

Anthropic 设置了 $2/$10 的引导价格，使这个切换在 8 月 31 日之前几乎无成本，而之后价格恢复到 Sonnet 一直收取的标准 $3/$15。

对这个发布的某些需求早已被激发。今年春季，开发人员花了几周时间讨论 Anthropic 让 Opus 4.6 默默失去优势的方式——被称为 AI 通货紧缩，并引用了下调的能力——而 Anthropic 否认故意降低任何模型的性能。相同的辩论也将这种怀疑扩展到了 Sonnet，认为这种模式会重复：让旧模型停滞，然后新的模型与之相比显得更为先进。

Sonnet 5 还在没有附带 Anthropic 顶级模型的负担下发布。Fable 5 和 Mythos 5 自 6 月 12 日起由于与有争议的越狱发现相关的美国出口控制指令而暂停供外籍人士使用。Sonnet 5 从未接受过网络安全任务的训练，并在开发有效的 Firefox 漏洞利用方面得分为 0%，因此它的安全保护较 Fable 的封锁要轻。

Anthropic 的系统卡片描述了一个旨在以 Sonnet 定价提供接近 Opus 智力的模型，适用于编码、代理和日常工作。它还标记了一些奇怪之处：“这是第一个批评其宪法规则的模型，该规则规定即使当模型视这些限制为不道德时，也必须遵循严格的约束，”研究团队写道。Anthropic 说他们不确定这对模型意味着什么，只是说值得关注。

我们不会说这就是天网的开始，但这就是天网的开始。

我们进行了快速测试

我们给 Sonnet 5 提出了一个零-shot 的提示，构建一个小型浏览器游戏，这是我们去年对 Sonnet 4.5 进行的相同测试。

我们的打字游戏在第一次尝试时就运行成功，其视觉效果更清晰，逻辑比 Sonnet 4.6 在相同提示下生成的更紧凑。

然而，与其他模型相比，这花费的时间过长（大约 30 分钟的推理），而且消耗令牌也极其疯狂。这一次迭代消耗了我们 Claude Pro 计划 5 个的 90% 限额。

您可以在我们的 itch.io 网站上测试最终游戏。

在一个更复杂的多步骤编码任务中，Sonnet 5 根据努力水平与 Opus 4.8 相近运行，而同一提示的多次运行成本显著低于 Opus 或 Fable 的等效任务。

Sonnet 5 的版本号也有实质性作用。Claude 历史上的每次完整数字跳跃都标志着一个新一代——2023 年 3 月的版本 1，四个月后的版本 2，八个月后的版本 3，以及在 2025 年 5 月到来的版本 4。Sonnet 5 在 13 个月后问世，用时间上的类似间隔，这可能是竞争激烈的标志，尤其是现在中国模型正在迅速缩小差距。

也就是说，代际差距的感觉不会像从 Claude 3 跃升到 Claude 4 那样显著。这也是大型 AI 公司匆忙发布新模型的迹象，无论改进的幅度如何。

如果 Anthropic 按照上一个周期使用的顺序，Sonnet 通常是首位，然后它会与 Opus 一起发布其便宜且小型的 Haiku，后者是其最先进的版本，将在之后发布。三个相似版本之间的较短间隔是每次发布一个月：Sonnet 4.5 于 2025 年 9 月发布，Haiku 4.5 于 10 月跟进，而 Opus 4.5 于 11 月结束了这一代。

根据这种乐观的节奏，Haiku 5 和 Opus 5 是仍然待发布的两个模型，可能在今年发布。尽管如此，Anthropic 的发布不太一致。Haiku 4.5 和 Sonnet 4.6 之间的间隔超过 3 个月，因此如果您想尽快测试 Opus 5，请保持希望。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

人类的克劳德索奈特5以极低的价格逼近作品4.8

我们进行了快速测试

Decrypt的精选文章

目录

相关文章