腾讯的新Hy3人工智能模型是无人提及的最高效中文大型语言模型

腾讯于周四悄然发布了其迄今为止最强大的人工智能模型，基准数字令人难以忽视。Hy3 预览是公司在全面基础设施重建后的第一个模型，今天在GitHub、Hugging Face和ModelScope上开放源代码。

它也在腾讯云的官方网站上提供，属于付费计划。

My3总共有2950亿个参数（这是衡量模型知识潜力的指标），但在任何给定时刻只有210亿个处于激活状态。这就是混合专家架构的魅力——模型将每个查询路由到其“专家”子网络的专门子集，而不是一次性运行所有内容。计算量更少，成本更低，输出质量大致相似。它还支持最多256,000个上下文标记，这足以在单个提示中处理一部完整的小说。

该模型旨在平衡腾讯所称的三项不再相互牺牲的因素：能力广度、诚实评估和成本效益。他们的前一个旗舰产品Hy2有超过4000亿个参数。腾讯明确表示这一点，认为2950亿是最佳的甜点区间，在这里推理完全成熟，但增加更多参数的成本不再划算。

这也并不意味着该模型更差。经过更好训练且参数更少的模型经常超越更大的通用模型。

在编码方面，进步显著。SWE-bench Verified是一个基准，测试模型是否能够实际修复来自GitHub仓库的真实错误——不是玩具问题，而是生产代码。Hy2的得分为53.0%。Hy3预览的得分为74.4%。在一代之间实现了40%的飞跃，使其接近Claude Opus 4.6（80.8%）和高于GLM-5（77.8%）以及Kimi-K2.5（76.8%）。Terminal-Bench 2.0测量真实命令行环境中的自主任务执行，从23.2%提升至54.4%——同样是一个巨大的飞跃。

然而，该模型对于构建代理的人来说可能是一个非常有趣的选择。代理具有非常复杂的一组指令，涉及记忆、技能和工具调用。它们通常会遗漏某些内容，这可能会破坏工作流程或产生糟糕的结果。这就是为什么在该领域变得越来越受欢迎的情况下，代理功能对人工智能开发者变得越来越重要。这也是为什么该模型立即被提供给Openclaw的原因。

搜索和浏览代理——模型必须从开放网络中检索、过滤和综合信息，而无需人类指导——也显著改善。在跟踪复杂网络研究任务的基准BrowseComp中，Hy3预览达到了67.1%（高于Hy2的28.7%）。在WideSearch中达到了70.2%，超越了GLM-5和Kimi-K2.5，但落后于Claude Opus 4.6的77.2%。

在推理方面，该模型在清华大学的数学博士资格考试（2026年春季）中超越了所有中国竞争者，三次运行的平均得分为88.4 avg@3。这是一项真实的考试，而不是一个策划的数据集——腾讯表示正在优先考虑这种评估，以避免基准游戏。该模型在CHSBO 2025（中国国家高中生生物奥林匹克竞赛）中的得分为87.8，在该类别中是中国模型中最高的。

Hy3预览于2026年1月底开始训练，并于周四发布——从冷启动到开源发布不到三个月。对于前沿级模型来说，异常快捷。腾讯将此归因于其首席人工智能科学家姚舜宇在2月份进行的基础设施大 overhaul，他推动了预训练和强化学习技术的全面重建。

这与一年前中国人工智能实验室所做的事情非常不同，当时DeepSeek的R1以其成本效益震惊了行业。

Hy3仍然落后于OpenAI和Google DeepMind的旗舰产品，但按大小与性能的比率来看，Hy3预览是难以忽视的：代理基准综合显示其位于“最佳区域”，约2950亿参数，领先于DeepSeek-V3.2（600亿+）并与Kimi-K2.5（超过1万亿参数）匹配，且计算成本仅为其一小部分。

汇元模型已经部署在元宝、CodeBuddy、WorkBuddy、QQ和腾讯文档中。在CodeBuddy和WorkBuddy上，首个令牌延迟降低了54%，端到端生成时间减少了47%，该模型成功运行的代理工作流程长达495步。腾讯云以每百万输入令牌约0.18美元和每百万输出令牌约0.59美元提供API访问，个人令牌计划套餐起价约为每月4.10美元。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

腾讯的新Hy3人工智能模型是无人提及的最高效中文大型语言模型

Decrypt的精選文章

目錄

相關文章