克劳德 幻想 5 并没有被削弱。路由器只是过于偏执。

CN
Decrypt
关注
4小时前

克劳德·法布尔5于7月1日重新上线,社交媒体上的评价并不友好:崩溃、削弱、切割、表现不佳,不再是同一个模型。



用户的批评声势如潮。随后,两项基准测试——BridgeBench AIArena AI——在同一天发布了数据,并得出了截然不同的结论。一项发现输出质量严重下降,另一项则发现差异微小,可能不足以引起注意。


它们在各自的方式上都是正确的。


简而言之:模型并没有变笨,前面的门槛变得更加严格。这个区别在你利用法布尔的方式上意义重大。


BridgeBench 实际测量的内容


BridgeMind——一个AI评估平台——在法布尔5于7月1日重新上线的当天对其完整编码套件进行了重新测试。


BridgeBench测试了包括调试、重构和幻觉抗性在内的真实编码任务,并对模型在每个类别任务的完成情况进行了0–100分的评分。结果在纸面上看起来很糟糕:调试从86.2降至25.9,重构从73.6降至38.4,幻觉抗性从75.9降至61.7。



关键在于方法论。在12个TypeScript调试任务中,只有三个实际达到了法布尔5。其余的九个被Anthropic的新安全分类器拦截,并重定向到克劳德·奥普斯4.8——而且BridgeBench将每个回退的评分都记为零,因为回答者模型并不是被评估的模型。





这个分类器是作为法布尔重新上线的条件而部署的,旨在阻止亚马逊报告的越狱技术——这一技术使法布尔5能够识别并展示软件漏洞。它有效。但它也会拦截许多不该拦截的内容。调试TypeScript在分类器眼中看起来足够像“安全工作”,以至于回退几乎总是触发。


Arena.AI 实际测量的内容


Arena.AI是一种大型语言模型基准测试和比较平台,通过不同的视角运行了相同的问题。该平台在多个类别(文本、视觉、文档、代码和代理)中收集了成千上万的盲人偏好投票,并使用Elo评分对模型进行排名,这是一种基于国际象棋的评分系统,可以调整统计不确定性并进行数千次对抗匹配。当两个模型匿名对抗,且人类选择获胜者时,得分反映的是实际感知质量,而非基础设施路由。



前后比较显示法布尔5大体保持稳定。前端代码从1650降至1623 Elo——Arena指出这一差异在置信区间内,随着数据不断累积。文档表现提高了34分。专家文本上升了25分。创意写作轻微上升了9分。表现下降的类别:编码下降了18分,硬提示下降了3分——恰好是在分类器最可能拦截提示的地方,令法布尔无法作答。


换句话说,当法布尔5实际处理任务时,它仍然表现得像法布尔5。X上的沮丧并不是关于一个糟糕的模型,而更多是关于支付的模型常常不是正在回答的那个。


谁受到影响,谁没有


进行创意写作、文档分析、研究和专家级文本查询的一般用户可能几乎不会注意到差异。这些类别是Arena.AI显示持平或改善表现的地方。如果有某种改进,可能微小到无法察觉,尤其是在诸如创意写作等主观的定性任务中,很难完全衡量结果。


因此,基本上,作者、研究人员和分析师将得到他们所期望的法布尔5。而开发者则是另一个故事。


在安全相关领域工作的人——编码内存管理、涉及“漏洞”、“利用”、“挂钩”或甚至“修复”等词汇的任何工作——将经常遇到回退。


BridgeBench的崩溃和Arena的稳定之间的差距归结为任务类型。BridgeBench加载的正是那些会触发新分类器的代码修复和调试提示。Arena的人工投票者询问的事物更为广泛,其中大多数在安全层看来并不像是利用代码。


Anthropic表示,分类器会随着时间的推移而改进,承认它们目前的覆盖面太广了。最初的禁令是在亚马逊研究人员发现一种技术来让法布尔识别和展示软件漏洞后发布的——美国政府将其视为国家安全威胁。解决办法是让分类器足够保守,以拦截此类内容及其周围的一切,然后稍后再减少其严厉性。


Anthropic尚未给出何时会发生这种情况的目标日期。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接