中国的Z.AI发布GLM-5.2:一款与Claude Opus竞争的模型——使用零块Nvidia芯片

CN
Decrypt
关注
1小时前

Z.ai 在6月16日发布了GLM-5.2,承诺提供顶级性能,超越其已经先进的GLM 5.1。


这家位于北京的实验室,自2025年1月以来一直在美国实体名单上,似乎正在受益于人们对美国人工智能政策日益增长的担忧。在过去的一周中,对Anthropic Fable的禁令和这一新模型的发布,帮助zAI的股票上涨了90%,创下新的历史最高点。




GLM 5.2有数据支持其宣传。


在FrontierSWE——一个评估AI代理是否能够完成以小时计算的开放式技术项目的基准,包括系统优化、大规模代码构建和应用机器学习研究,按照主导率打分——GLM-5.2以74.4的分数超越了Claude Opus 4.8的75.1,略高于GPT-5.5的72.6。在SWE-bench Pro上,该基准测试评估现实世界GitHub问题的自主解决,GLM-5.2得分62.1,高于GPT-5.5的58.6,并且以大幅度超越了其前身GLM-5.1的58.4。


质量的飞跃使其成为迄今为止最佳的开源模型,在人工智能分析指数中,该指数综合了9个不同的评分来评估AI模型的一般质量。OpenRouter的基准测试将其与现已被禁的Claude Fable 5归为同一类别。




用于实现这一壮举的硬件是故事中的另一个有趣部分。GLM-5.2是基于华为Ascend芯片进行训练的——管道中没有Nvidia的任何身影。稳定性AI的创始人Emad Mostaque估计总训练成本约为2500万美元,其中80%用于后期训练,与同类产品相比,这将使其极为便宜。


正如Decrypt今年早些时候报道,Z.ai已经在华为的Ascend Atlas服务器上开展图像模型训练,没有使用一枚美国产芯片。GLM-5.2进一步利用了这一基础设施——一个7440亿参数的专家混合模型,具有真正的100万令牌上下文窗口,是GLM-5.1的20万限制的五倍,并且MIT许可证意味着没有政府指令可以切换访问开关。


令牌是模型可以读取和生成的文本块,而参数是决定模型如何处理信息和生成响应的内部设置和数值的数量。


谁适合以及费用


对于开发者而言,上下文窗口是操作上的转变。整体仓库导航、多文件重构和此前需要分块的长代理管道如今变为单次调用工作流。API定价为每百万输入令牌1.40美元,每百万输出令牌4.40美元,相较于Claude Opus 4.8的5美元输入和25美元输出。编码计划的起价约为每月18美元,并可在Claude Code、Cline、Kilo Code以及大多数流行的代理环境中直接使用。


本地部署在技术上也是可行的。Unsloth AI推出了2位GGUF量化,将模型从1.51TB压缩至238GB,同时保持约82%的准确度。





不过,不要过于兴奋。这仍然意味着它需要256GB的统一内存或配套的RAM/VRAM组合——一个最高配置的M4 Ultra Mac Studio或一个配有中等GPU和256GB系统RAM的工作站,且需要混合专家卸载。这仍然需要相当多的资金,但至少是你如果真的想的话可以购买和运行在家里的东西。


我们进行了快速测试,要求GLM-5.2构建我们标准的游戏,将打字机制与射击结合。用户界面并不是最好看的——其他模型生成了更为精美的界面,但体验是最为多样的:在不同波次中出现不同场景,敌人类型变化,最终boss在游戏后期出现。


它生成了比我们在同一任务的零样本设置中测试的其他任何模型更为多样的游戏状态。




如果你想试玩,它在我们的Itch.io个人资料中上线了。


这种变异指向了GLM-5.2在经济上最有意义的地方。对于多次生成工作流和输出多样性比抛光更重要的代理管道,依据开源定价水平的数学很难反驳。对于最艰巨的持续任务——SWE-Marathon,其得分为13.0,而Opus 4.8为26.0——与封闭前沿的差距依然真实,且宽13分。


开源权重在HuggingFace上以MIT许可证公开。量化权重也可在HuggingFace上获取。GLM编码计划的订阅者现在可以使用模型字符串GLM-5.2进行切换,并且也可以在z.AI上进行免费测试,附带一些使用限制。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接