Anthropic 为 Claude Fable 5 秘密审查道歉——但修复有一个条件

CN
Decrypt
关注
2小时前

Anthropic 在成为本周人工智能行业的恶棍后,花费了大约 48 小时才认输。


该公司 本周推出了 Claude Fable 5,立即遭遇 强烈反对,原因是其 319 页的系统卡中埋藏的一项保护措施:该模型是公司新 Mythos 系列的第一个模型,它会秘密降低对用户的响应,前提是它怀疑这些用户正在构建竞争的人工智能模型——没有警告,没有后备消息,只是悄悄提供更差的输出。到星期四,Anthropic 开始道歉。



“隐形保护措施可以更有针对性,从而允许我们以非常少的误报迅速发布。我们出于这个原因选择了隐形保护措施——这是错误的权衡,”该公司在 X 上发布道。“您应该能够看到我们实施的保护措施,以及原因。”


“我们为没有找到正确的平衡感到抱歉。”


从本周开始,标记的请求将可见地路由到 Claude Opus 4.8,一个能力较弱的模型,而不是默默提供降级的 Fable 输出。API 用户在请求被拒绝时将获得说明理由。Anthropic 表示,服务器端的后备通知将在接下来的几天内推出。


实际上发生了什么


对于非技术读者,争议的实质内容是这样的。Claude Fable 5 已经有可见的网络安全和生物研究保护措施——如果您问的问题触发了这些过滤器,您会收到通知,告知您的请求正被重定向到较旧的 Opus 4.8 模型。您会知道发生了变化。您可以调整您的提示或使用不同的工具。


然而,一些生物研究人员指出,这些保护措施过于极端。





但是,LLM 开发保护措施的工作方式却不同。如果 Fable 5 检测到您正在进行像预训练人工智能系统、构建分布式训练基础设施或设计机器学习芯片这样的工作,该模型将静默地改变自己的行为——通过修改提示、调整引导向量或参数微调——给您一个更糟的答案而不告诉您。您会收到一个响应。但这并不是您为之付费的 Fable 5。


Fable 5 被宣传为 Anthropic 最强大的 Mythos 类模型的公众面孔,使用它进行合法机器学习工作的研究人员无法知道他们的结果被污染。失败的实验看起来是一样的,无论您的假设是错误还是模型被悄悄告知要表现不佳。这就是导致人工智能研究社区全面崩溃的可重复性问题。


问题在于分类器的准确性并不高。人工智能研究公司 SemiAnalysis 是最早公开质疑它们的公司之一,在看到它们的 GPU 推断研究被标记后发声。



修复中的问题


Anthropic 的反转伴随着对其接受的权衡的直接承认。使保护措施可见使其更容易被绕过,这意味着分类器必须扩大覆盖范围才能保持有效。


更多的误报——被捕获并重定向的合法机器学习工作——在公司调整其系统时正在增加。Anthropic 表示,它正在努力“尽快”减少误报,但没有提供时间表。


该公司还对其生物学和网络安全分类器进行相同的清理,这些分类器也因标记无害的研究提示而受到投诉。


也就是说,剩下的担忧是,Anthropic 并没有放弃这一类别的限制——只是将其变得可见。对于那些认为限制本身是错误的人来说,周四的道歉是部分解决方案。Fable 5 在 Pro、Max、Team 和 Enterprise 计划中仍然是免费的,直到 6 月 22 日,之后将仅转为 API 使用积分


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接