人类的克劳德索奈特5以极低的价格逼近作品4.8

CN
Decrypt
关注
2小时前

Anthropic 于星期二发布了 Claude Sonnet 5,称其为“迄今为止最具自主性的 Sonnet 模型。”它是 Free 和 Pro 用户的默认模型,已在 Max、Team 和 Enterprise 计划中上线,常见于 Claude Code 和 API 中。与以前的 Sonnet 发布不同,这一次的型号是与之前的 Opus 并列,而不是落在其后。


发布博文中,公司表示 Sonnet 5 的性能“接近 Opus 4.8,但价格更低。”开发人员可以在两个模型之间滑动努力拨轮,或在网页应用中选择不同的级别,以便在同一任务上用成本换取准确性,覆盖那些过去需要 Opus 费率的工作。




在 SWE-bench Pro——一个从积极维护的存储库中提取问题的编码基准,用解决率表示——Sonnet 5 取得了 63.2% 的成绩,而 Sonnet 4.6 的成绩为 58.1%。


在 GDPval-AA v2,一个通过盲配对 Elo 评分对 44 种职业进行打分的人工分析基准中,它的得分为 1,618,和 Opus 4.8 的 1,616 处于统计平局状态。Sonnet 5 和 Opus 4.8 在人类最后考试中的差异几乎可以忽略不计:57.4% 对比 57.9%。




Sonnet 5 还配备了更新的分词器——将文本分割成模型计费单元的系统——并且更加贪婪,将相同输入转化为消耗更多令牌的任务。“Sonnet 5 是对 Sonnet 4.6 的升级,但它使用了更新的分词器,这改变了模型处理文本的方式,从而提高了性能。”Anthropic 在一个小脚注中写道。“因此, 相同输入可能映射为更多令牌:大约 1.0–1.35 倍,具体取决于内容类型。”


Anthropic 设置了 $2/$10 的引导价格,使这个切换在 8 月 31 日之前几乎无成本,而之后价格恢复到 Sonnet 一直收取的标准 $3/$15。





对这个发布的某些需求早已被激发。今年春季,开发人员花了几周时间讨论 Anthropic 让 Opus 4.6 默默失去优势的方式——被称为 AI 通货紧缩,并引用了 下调的 能力——而 Anthropic 否认故意降低任何模型的性能。相同的辩论也将这种怀疑扩展到了 Sonnet,认为这种模式会重复:让旧模型停滞,然后新的模型与之相比显得更为先进。




Sonnet 5 还在没有附带 Anthropic 顶级模型的负担下发布。Fable 5 和 Mythos 5 自 6 月 12 日起由于与有争议的越狱发现相关的美国 出口控制指令而暂停供外籍人士使用。Sonnet 5 从未接受过网络安全任务的训练,并在开发有效的 Firefox 漏洞利用方面得分为 0%,因此它的安全保护较 Fable 的封锁要轻。


Anthropic 的 系统卡片 描述了一个旨在以 Sonnet 定价提供接近 Opus 智力的模型,适用于编码、代理和日常工作。它还标记了一些奇怪之处:“这是第一个批评其宪法规则的模型,该规则规定即使当模型视这些限制为不道德时,也必须遵循严格的约束,”研究团队写道。Anthropic 说他们不确定这对模型意味着什么,只是说值得关注。


我们不会说这就是天网的开始,但这就是 天网的开始


我们进行了快速测试


我们给 Sonnet 5 提出了一个零-shot 的提示,构建一个小型浏览器游戏,这是我们去年对 Sonnet 4.5 进行的相同测试。


我们的打字游戏在第一次尝试时就运行成功,其视觉效果更清晰,逻辑比 Sonnet 4.6 在相同提示下生成的更紧凑。


然而,与其他模型相比,这花费的时间过长(大约 30 分钟的推理),而且消耗令牌也极其疯狂。这一次迭代消耗了我们 Claude Pro 计划 5 个的 90% 限额。




您可以在我们的 itch.io 网站上测试最终游戏。


在一个更复杂的多步骤编码任务中,Sonnet 5 根据努力水平与 Opus 4.8 相近运行,而同一提示的多次运行成本显著低于 Opus 或 Fable 的等效任务。


Sonnet 5 的版本号也有实质性作用。Claude 历史上的每次完整数字跳跃都标志着一个新一代——2023 年 3 月的版本 1,四个月后的版本 2,八个月后的版本 3,以及在 2025 年 5 月到来的版本 4。Sonnet 5 在 13 个月后问世,用时间上的类似间隔,这可能是竞争激烈的标志,尤其是现在中国模型正在 迅速缩小差距


也就是说,代际差距的感觉不会像从 Claude 3 跃升到 Claude 4 那样显著。这也是大型 AI 公司匆忙发布新模型的迹象,无论改进的幅度如何。


如果 Anthropic 按照上一个周期使用的顺序,Sonnet 通常是首位,然后它会与 Opus 一起发布其便宜且小型的 Haiku,后者是其最先进的版本,将在之后发布。三个相似版本之间的较短间隔是每次发布一个月:Sonnet 4.5 于 2025 年 9 月发布,Haiku 4.5 于 10 月跟进,而 Opus 4.5 于 11 月结束了这一代。


根据这种乐观的节奏,Haiku 5 和 Opus 5 是仍然待发布的两个模型,可能在今年发布。尽管如此,Anthropic 的发布不太一致。Haiku 4.5 和 Sonnet 4.6 之间的间隔超过 3 个月,因此如果您想尽快测试 Opus 5,请保持希望。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接