DeepReinforce,一个曾以CUDA-L1和IterX代码代理优化循环而闻名的人工智能研究实验室,在上周末发布了Ornith-1.0——一系列基于参数数量的开源编码模型,在Hugging Face上提供四种规模:90亿、310亿、350亿混合专家和一个3970亿混合专家旗舰,所有模型均在MIT许可证下无区域限制。
参数基本上是指模型在训练中可以处理的开关和配置的数量。参数越多,模型的能力就越强。一个90亿参数的模型被认为是小型的,足以在较好的智能手机上运行,但并不适合可靠地执行任何重的推理任务。一个3970亿的模型能力更强,但需要一些重的计算,这种计算在消费硬件上是不可能实现的。
该实验室将其描述为“一个自我改善的开源模型家族,专为智能编码任务而设计。”那个词——智能——在这里承担了很大的责任。
大多数与人们互动的人工智能是对话式的:你输入,它回复,交流结束。智能AI则不同——它接到任务并采取行动完成它,而不需要人类指导每一步。在编码的上下文中,这意味着一个能够读取文件、运行测试、识别故障、修复代码,并循环直到完成的AI。
因此,智能AI意味着大部分时间不需要有人在键盘上。这就是整个重点。这也是在2026年最具商业相关性进展的方向——能够在20步开发工作流程中无监督运行的模型比应要求编写干净函数的模型更有价值。
然而,大多数大型语言模型仍然是为考虑人类反馈而设计的。
Ornith的智能是如何工作的
大多数AI编码代理与人为设计的框架配对——固定的一套规则,用于指导代理如何构建工作:何时调用工具,如何处理错误,如何分解多步骤问题。而Ornith则“将框架视为一个可学习的对象,随着策略共同进化。”
翻译:它不是继承别人的剧本,而是发展自己的剧本。
在强化学习过程中,每一个训练步骤分为两个阶段。模型首先读取任务,并提出一种改进策略来处理它。然后,它利用该策略生成解决方案。
结果的奖励反馈到两个阶段——因此模型优化的是编写更好策略的能力,而不仅仅是更好代码的能力。这样做成千上万次,特定任务的方法在没有人类干预的情况下出现。
DeepReinforce也非常重视奖励操控。如果模型能够编写自己的训练框架,从理论上讲,它可以编写一个操控验证者的框架——接触一个文件使其看起来像完成了一个任务,而实际上并没有完成工作。有三层防御来阻止这种情况:环境和测试套件是不可变的,超出了模型的控制,确定性的监控器会标记任何试图访问受限路径或更改验证脚本的行为,并且一个冻结的判决模型位于自动化验证者之上,以便于否决。
数字
旗舰的3970亿参数模型在SWE-bench Verified上得分82.4——这是一个测试,AI需从开源GitHub仓库中获得一个真实的错误,并在没有看到测试套件的情况下修复它,得分为成功解决的问题百分比。
这击败了Claude Opus 4.7的80.8和DeepSeek-V4-Pro的80.6。在Terminal Bench 2.1上——89个任务在容器化终端环境中运行,从调试异步代码到解决安全漏洞,按完成率计分——它的得分为77.5,而Claude Opus 4.7为70.3。
鉴于SWE-bench污染问题已被公开提出——OpenAI今年早些时候辩称模型通过记忆在训练期间看到的基准解决方案而抬高分数——Ornith也在SWE-bench Pro上报告了数据,这是一个更难的版本,使用更丰富、更少泄漏的代码库,按相同方式计分。3970亿模型在该测试中得分62.2。尽管明显较低,但仍然在竞争中,并且仍优于Deepseek V4 Pro。
90亿参数模型可能是更有趣的数据点。它在SWE-bench Verified上的得分为69.4——高于Gemma 4-31B的52,并且与Qwen 3.5-35B的70相竞争,尽管其规模小3-4倍。
适用群体及限制
Ornith-1.0显然不是一个通用人工智能。模型自己的文档中表示,它可能在智能编码以外的任务上表现不佳。如果你想要AI来总结一份文件、帮助你写博士论文或草拟邮件,Ornith-1.0不是合适的选择。
它优化针对一个狭窄的问题集:开发者管道,其中AI代理接收任务描述,运作在代码库或终端会话内,完成多步骤工作而无需干预。这是为那些已经在运行代理基础设施的人构建的工具,而不是为那些试图决定是否值得使用AI的人。
“击败Claude”的标题确实存在,但需要背景。正如Decrypt报道的那样,所有实验室现在都在追求智能编码评估中的性能,因为那是有用的性能差异所在。
Ornith-1.0-397B在不同的编码基准测试中确实超过了Claude Opus 4.7,但Anthropic目前的旗舰Claude Opus 4.8得分更高。能够进行比较的还是在开源类别内,根据可比较的参数数量,在编码特定的代理任务上。
对于构建自托管编码管道、智能基础设施或类似编码专注工作的开发者来说,运行在边缘硬件上的小型和中型模型可能真的有帮助,但普通用户可能更适合选择其他地方。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。