你认为Qwopus很酷,因为它将Qwen和Opus结合在一起?那么,Kyle Hessling,这位拥有丰富知识和空闲时间的AI工程师,刚刚将这个配方混合了GLM——这是目前最好的推理模型之一。结果是一个180亿参数的法兰肯合并,它适合在便宜的GPU上运行,并且超越了阿里巴巴最新的35B模型。
对于那些还不知道的人来说,参数是嵌入在神经网络中训练期间的数值,就像神经网络可以调整的拨盘——它们越多,模型能够处理的知识和复杂性就越高,运行时需要的内存也越多。
Hessling,这位AI基础设施工程师,将两层Jackrong的Qwen3.5微调叠加在一起:来自Qwopus 3.5-9B-v3.5的第0层到第31层,将Claude 4.6 Opus的推理风格提炼为Qwen作为基础模型,以及来自Qwen 3.5-9B-GLM5.1-Distill-v1的第32层到第63层,后者在相同的Qwen基础上接受了来自z.AI的GLM-5.1教师模型的推理数据训练。
假设是:在推理的前半部分给模型Opus风格的结构化规划,而在后半部分提供GLM的问题分解框架——总共64层,合并为一个模型。
该技术被称为通过法兰肯合并——没有混合,没有权重平均,只有原始的层堆叠。Hessling不得不从头开始编写自己的合并脚本,因为现有工具不支持Qwen 3.5的混合线性/全注意力架构。最终模型在44个能力测试中通过了40个,击败了阿里巴巴的Qwen 3.6-35B-A3B MoE——后者需要22 GB的VRAM——而运行时仅需9.2 GB的Q4_K_M量化。
NVIDIA RTX 3060理论上可以很好地处理它。
Hessling解释说,制作这个模型并不容易。原始合并会抛出乱码代码。但即便如此,他发布的测试模型在爱好者中走红。
Hessling的最终修复是“修复微调”——基本上是一个QLoRA(嵌入到模型中的一段代码,就像一个附录,并对最终输出有重度条件)针对所有的注意力和投影。
我们尝试了它,尽管在我们的土豆电脑本地运行Qwen、Claude Opus和GLM 5.1的想法令人非常诱惑,但实际上我们发现该模型在推理时表现得太过细致,以至于过度思考。
我们在一台运行MLX量化版本的M1 MacBook上测试。当被提示生成我们通常的测试游戏时,推理链运行得太长,触及了令牌限制,并给我们带来了一个没有有效结果的长推理段。这对于希望在消费者硬件上本地运行该模型进行任何严肃应用的人来说是一个日常使用障碍。
我们稍微放轻松一些,但事情依然具有挑战性。一个简单的“写一个贪吃蛇游戏”的提示在推理时花费了超过40分钟……非常多。
你可以在我们的Github 仓库中查看结果。
这在Qwopus血统中是一个公认的紧张局势:Jackrong的v2微调旨在解决Qwen 3.5倾向于重复内部循环和“更经济思考”的问题。叠加64层的两种推理提炼似乎在某些提示上加剧了这种行为。
这是一个可以解决的问题,开源社区可能会解决它。这里重要的是更广泛的模式:一位匿名开发人员发布带有完整培训指南的专业微调,另一位爱好者使用自定义脚本将它们叠加,运行1000个修复步骤,得到一个超越世界上最大的AI实验室之一的350亿参数发布的模型。整个过程适合一个小文件。
这就是开源值得关注的地方——不仅是大型实验室发布权重,还有逐层的解决方案,以及在雷达下发生的专业化。随着更多开发人员加入社区,周末项目与前沿部署之间的差距变得更小。
Jackrong此后已镜像Hessling的仓库,该模型在可用的前两周内积累了超过三千次下载。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。