阿里巴巴最新的人工智能模型超越了OpenAI的o1-mini,达到与DeepSeek R1相当的水平。

CN
Decrypt
关注
2个月前

阿里巴巴云推出了一款新的以推理为重点的人工智能模型,尽管其规模仅为竞争对手的一小部分,但其性能却能够与更大规模的竞争对手相匹敌。

这家中国科技巨头的云计算部门最新推出的产品挑战了在人工智能领域“大即是好”的观念。

这款名为QwQ-32B的模型基于阿里巴巴的Qwen2.5-32B基础,使用了325亿个参数,同时在性能上与拥有6710亿个参数的DeepSeek r1相当。

“这一显著成果强调了在经过广泛世界知识预训练的强大基础模型上应用强化学习(RL)的有效性,”阿里巴巴的Qwen团队在今天的博客文章中表示。

根据公司介绍,QwQ-32B在数学推理和编码任务中表现尤为出色。

“我们发现,RL训练可以持续提高性能,特别是在数学和编码方面,我们观察到RL的持续扩展可以帮助中型模型在与巨型MoE模型的竞争中取得相对竞争力的表现,”阿里巴巴在其公告推文中写道。

根据内部基准结果,它在GPQA(研究生级科学推理测试)中得分65.2%,在AIME(高级数学)中得分50%,在涵盖广泛数学问题的MATH-500中得分高达90.6%。

人工智能社区对此反应热烈。“我绝对喜欢它!”数据科学家和AI研究员Vaibhav Srivastav表示,而Huggin Face的首席技术官Julien Chaumond则表示该模型“改变了一切”。

当然,也有一些有趣的表情包。

此外,Ollama和Groq宣布他们已实现对该模型的支持,这意味着用户现在可以编程开源代理,并在第三方应用程序中使用该模型,同时在Groq的基础设施上实现创纪录的推理速度。

这一效率提升标志着行业的潜在转变,行业趋势一直是向更大规模的模型发展。QwQ-32B则采取了与DeepSeek R1类似的方法,表明巧妙的训练技术在人工智能性能方面可能与原始参数数量同样重要。

QwQ-32B确实存在一些局限性。它有时在语言混合方面表现不佳,并可能陷入影响其效率的递归推理循环。

此外,像其他中国人工智能模型一样,它遵循当地的监管要求,这可能限制对政治敏感话题的回应,并且具有相对有限的32K令牌上下文窗口。

打开源代码

与许多先进的人工智能系统——尤其是来自美国和西方国家的系统——在付费墙后运行不同,QwQ-32B作为开源软件在Apache 2.0许可证下提供。

此次发布紧随阿里巴巴在1月推出的Qwen 2.5-Max,该公司声称其“几乎在各个方面都超越了竞争对手”。

早期的发布恰逢农历新年庆祝活动,突显了中国科技公司在快速发展的人工智能领域面临的竞争压力。

中国模型在人工智能行业中的影响力如此之大,以至于在关于这一主题的先前声明中,唐纳德·特朗普总统将其表现描述为对硅谷的“警钟”,但将其视为“机会而非威胁”。

当DeepSeek R1发布时,它引发了股市的显著下跌,但QwQ-32B并未以同样的方式影响投资者。

纳斯达克整体下跌,主要是出于政治原因,而非因阿里巴巴的影响所引发的恐惧、不确定性和怀疑(FUD)。

尽管如此,阿里巴巴将此次发布视为一个开始。

“这标志着Qwen在扩展强化学习以增强推理能力方面的初步步骤,”该公司在其博客文章中表示。

“我们相信,将更强大的基础模型与通过扩展计算资源驱动的强化学习相结合,将使我们更接近实现人工通用智能(AGI)。”

编辑:Sebastiaan Sinclair

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

注册返10%、领$600,前100名赠送PRO会员
链接:https://accounts.suitechsui.blue/zh-CN/register?ref=FRV6ZPAF&return_to=aHR0cHM6Ly93d3cuc3VpdGVjaHN1aS5hY2FkZW15L3poLUNOL2pvaW4_cmVmPUZSVjZaUEFG
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接