有人构建了一个开源的“理论神话”，以逆向工程人类最危险的人工智能。

如果Anthropic不向你展示它最危险的人工智能内部情况，那么GitHub上的某些人会进行猜测。

一位名叫Kye Gomez的开发者发布了OpenMythos，这是一个开放源代码的重建项目，他认为Claude Mythos的内部构造就是这样。这个代码库在发布后的几周内获得了超过10,000颗GitHub星，并附带了一份详尽的“自述”文件，里面充满了方程式、引用和一份礼貌的免责声明，声明它与Anthropic无关。

这只是猜测。但这是有结构的猜测，编写成代码。

这里快速回顾一下Mythos是什么：Mythos在三月底泄露到了公众视野，当时Anthropic意外地发布了描述其为公司迄今为止最强大的模型的草稿材料——比Opus高出一个层级。后续的Mythos预览版本被发现对网络安全表现出色。

根据Anthropic的说法，Mythos在Mozilla测试期间发现了Firefox中的271个漏洞。它成为第一个完成32步企业网络攻击模拟的人工智能模型。Anthropic将其锁定在项目Glasswing中，这是一个经审查的由约40个合作伙伴组成的联盟，包括微软、苹果、亚马逊和美国国家安全局。

公众无法接触到它。因此，Gomez试图弄清楚它是如何工作的。

OpenMythos的核心猜测是Mythos是一个递归深度变换器——也称为循环变换器。标准模型堆叠数百个独特的层。循环模型则使用一个较小的堆栈并在每次前向传播中多次运行它。

换句话说，是相同的权重经过更多次迭代。在任何令牌被发出之前，在连续的潜在空间中进行更深层次的思考。

该代码库认为，这将解释Mythos的两个最奇怪的特性：它能以其他模型无法解决的新问题进行推理，但它的原始记忆能力却不均匀。这是循环的架构指纹——更注重组合而非存储。

OpenMythos引用了Parcae，这是来自加州大学圣地亚哥分校和Together AI的一篇2026年4月的论文，解决了循环模型中长期存在的不稳定性问题——一个770百万参数的Parcae模型在质量上与一个13亿固定深度变换器相匹配，并具有预测的缩放规律。该代码库还借用了DeepSeek的多潜在注意力机制以压缩内存，和一个专家组合结构以处理各个领域的广度。

它没有的是权重，因此基本上这是一个没有执行器的技术。

OpenMythos是理论性的。代码定义了从10亿到1万亿参数的模型变体，但你必须自己训练它们——自述文件指出了一个在FineWeb-Edu上训练3亿参数的脚本和一个经过Chinchilla调整的300亿标记目标，这种计算费用在H100上高达数十万美元。目前没有人做到这一点。

那么这有什么重要呢？

因为这是一个月内第二次有人试图攻破Mythos的围墙。第一次是来自Vidoc Security的一项研究，它再现了Mythos的一些最令人担忧的漏洞发现，使用的是开放源代码代理中的GPT-5.4和Claude Opus 4.6。没有Glasswing访问权限，每次扫描费用低于30美元。不同的角度，相同的结论：Mythos周围的护城河可能比市场宣传的要薄。

OpenMythos和Vidoc的复现有着不同的目标。Vidoc使用现有模型复现了Mythos的输出——漏洞发现本身。OpenMythos则试图复现架构——生成这些输出的实际机器。前者表示你不需要Mythos就能发现Mythos找到的漏洞。后者则表示，最终，你可能能够自己构建类似Mythos的东西。

Anthropic几乎肯定不会公开分享Gomez的架构猜测，OpenMythos中的几个设计选择都是明确的对冲——自述文件确保模糊，以便用户知道这只是一个方法。它反复使用“可能”、“怀疑”和“几乎肯定”这样的词。真正的Mythos可能根本不是一个循环变换器。或者它可能是一个Gomez尚未逆向工程的变换器。

OpenMythos展示的是研究文献中已经包含了大多数部分。循环变换器、专家组合、多潜在注意力、自适应计算时间、Parcae的稳定性修复——这些都不是专有的。该代码库更像是一个关于如何构建Mythos级模型的公开知识库存。

该代码库获得MIT许可，目前已有2,700个分支。训练脚本就在那儿，等待着拥有GPU集群和证明论点的人的到来。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

有人构建了一个开源的“理论神话”，以逆向工程人类最危险的人工智能。

Decrypt的精选文章

目录

相关文章