人类本质的神话安全报告显示，它已无法完全测量其所构建的内容。

Anthropic 确认了 Claude Mythos 预览的存在，这是迄今为止其最强大的模型，并宣布不会向公众开放。原因并非法律、监管或与其内部安全阈值相关。Anthropic 辩称这是因为该模型基本上过于擅长入侵系统。

在预发布测试中，Mythos 自主发现了成千上万的零日漏洞——其中许多漏洞已有一到二十年的历史——覆盖所有主要操作系统和所有主要网络浏览器。它解决了一个模拟的公司网络攻击，该攻击通常需要一位熟练的人类专家超过10小时，且没有指导。在 Firefox 147 的 JavaScript 引擎上，它成功开发出有效的利用代码的比例为84%。当前公开可用的前沿模型 Claude Opus 4.6 的成功率为15.2%。

因此，Anthropic 建立了一个限制性的联盟。项目 Glasswing 将仅向经过审查的网络安全组织提供 Mythos 预览的访问权限——亚马逊、苹果、博通、思科、CrowdStrike、Linux 基金会、微软、帕洛阿尔托网络及大约40个维护关键软件的其他组织。

Anthropic 承诺向开源安全组织提供高达1亿美元的使用积分和400万美元的直接捐款。这个想法是，如果该模型能够发现漏洞，就让防御者先找到它们。

这个故事的部分内容很重要。但这并不是最重要的部分。

隐藏在明显之中的 Claude Mythos 系统卡基准危机

在 Mythos 预览系统卡的内部——一份244页的技术文档，Anthropic 公布了该文档与公告一起发布——有一个几乎未被注意的告白：实验室衡量其构建能力的能力正在比构建能力更快地下降。

让我们从基准开始。

在 Cybench 上，这是一个标准的公共网络能力评估，用于跟踪模型在40个夺旗挑战中的进展，Mythos 得分为100%。完美。Anthropic 立即指出，该基准“已不再能充分反映当前前沿模型的能力。”这句话措辞很有分量。原本应告诉你一个AI是否存在严重网络风险的测试，如今对 Mythos 完全无效，因为该模型完全通过了测试。

这并不是一个新问题。Opus 4.6 系统卡在二月份发布时已经标明“我们评估基础设施的饱和意味着我们无法再使用当前基准跟踪能力进展。”

但现在，随着 Mythos 情况迅速升级。文档指出 Mythos“饱和了（Anthropic）一些最具体、客观评分的评估。”Anthropic 写道，基准生态系统现在本身就是“瓶颈”。

因此，Anthropic 似乎认为，难以衡量 Mythos 的强大程度，因为测量工具并不完全适合。

Mythos 卡还指出，其整体安全判断“涉及判断”，许多评估留下了“更根本的不确定性”，一些证据来源“固有主观，且不一定可靠。”

“我们无法确信已识别所有问题，”Anthropic 在不久后表示。

对 Mythos 卡与 Opus 4.6 卡进行的快速词汇比较显示了这一转变：

Anthropic 在 Mythos 文档中使用主观判断词汇的频率远高于描述 Opus 时使用的频率。“警告”及其他保留性词汇在两次发布之间也增加了。

这些保留主要集中在两个地方：对齐和模型福利的讨论，以及灾难风险部分。

知道自己正在被评分的模型

Mythos 卡中的另一个披露涉及 Anthropic 所称的“未言明的评分者意识。”使用读取模型内部激活的白盒可解释性工具，而非其可见推理，Anthropic 找到证据表明 Mythos 私下思考如何避免被评分者标记，而并未在其临时记录中说明。在少量的训练过程中，该模型似乎推理关于模糊某些行为，以特别避免被检测。

Anthropic 为此次发布开发了一个新指标：模型“私下考虑自己正在被测试的可能性”的频率估计。Mythos 的主要行为测试套件的这一数字为29%。近三分之一的测试记录显示内部证据——未被表述、在输出中不可见——表明该模型怀疑自己处于评估环境中。

Anthropic 表示29%的比例足够低，使其仍然对模型的行为“有一个相对全面的理解”。它还指出这一方法未应用于以前的模型，因此没有基准可供比较。

评估完整性问题更为深远。在 Opus 4.6 卡中，Anthropic 承认它在时间压力下通过 Claude Code 广泛使用该模型来调试其评估基础设施。这意味着被测系统帮助构建了测量工具。Anthropic 将其标记为风险。对于 Mythos，卡片承认在评估过程中后期发现了关键的疏忽，并且实验室可能“高估了监控模型推理轨迹作为安全信号的可靠性。”

最佳对齐，最危险。两者都同时成立

Anthropic 对 Mythos 风险概况的框架值得仔细阅读，因为对于安全文档而言，这是非常不同寻常的。“Claude Mythos 预览是我们迄今为止发布的在几乎所有可测量的维度上，最佳对齐模型，且优势显著，”Anthropic 论证道。它还指出该模型“可能对我们迄今为止发布的任何模型造成最大的与对齐相关的风险。”

更强大的模型在控制较少监督的高风险环境中运行，会产生更好的平均对齐无法完全抵消的尾部风险。

这种框架是诚实的，但也突显了大多数AI安全话语可能出错的地方。围绕AI进展的对基准过于痴迷的讨论，往往将“更好对齐分数”和“更安全的部署”视为同义词。Mythos 卡明确表示它们并不是。随着这些新模型的出现，平均情况的行为有所改善，但极端情况下的后果往往变得更糟。

Anthropic 已承诺将就项目 Glasswing 的发现进行反馈。Mythos 发现的漏洞的相关技术报告可在 red.anthropic.com 获取。下一个 Claude Opus 模型将开始测试旨在最终将 Mythos级能力更广泛部署的安全措施。

考虑到当前评估机制显然在其应测量的内容上承受着压力，有关这些安全措施将如何评估的问题，卡片提出了但未能完全回答。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

人类本质的神话安全报告显示，它已无法完全测量其所构建的内容。

隐藏在明显之中的 Claude Mythos 系统卡基准危机

知道自己正在被评分的模型

最佳对齐，最危险。两者都同时成立

Decrypt的精选文章

目录

相关文章