阿里巴巴推出新的Qwen2人工智能模型，挑战Meta和OpenAI

阿里巴巴，中国电商巨头，在中国的人工智能领域扮演着重要角色。今天，它宣布发布了最新的人工智能模型 Qwen2，从某些方面来看，它是目前最好的开源选项。

由阿里云开发的 Qwen2 是该公司通译千文（Qwen）模型系列的下一代，包括通译千文 LLM（也称为 Qwen）、视觉人工智能模型 Qwen-VL 和 Qwen-Audio。

Qwen 模型系列是在涵盖各行业和领域的多语言数据上进行预训练的，其中 Qwen-72B 是该系列中最强大的模型。它经过了惊人的 3 万亿标记的数据训练。相比之下，Meta 最强大的 Llama-2 变种是基于 2 万亿标记的。然而，Llama-3 正在处理 15 万亿标记的数据。

根据 Qwen 团队最近的博文，Qwen2 能处理 128K 标记的上下文，与 OpenAI 的 GPT-4o 相当。与此同时，Qwen2 在基本上所有最重要的合成基准测试中都优于 Meta 的 LLama3，团队断言，这使得它成为目前最好的开源模型。

然而，值得注意的是，独立的Elo Arena将 Qwen2-72B-Instruct 的表现略优于 GPT-4-0314，但低于 Llama3 70B 和 GPT-4-0125-preview，使其成为迄今为止人类测试者中第二受欢迎的开源 LLM。

Qwen2 在合成基准测试中的表现优于 Llama3、Mixtral 和 Qwen1.5。图片：阿里云

Qwen2 有五种不同规模可供选择，参数范围从 0.5 亿到 72 亿，此次发布在不同专业领域取得了显著改进。此外，这些模型的训练语料库比之前的版本增加了 27 种语言，包括德语、法语、西班牙语、意大利语和俄语，除了英语和中文。

Qwen 团队在模型在 HuggingFace 的官方页面上声称：“与包括之前发布的 Qwen1.5 在内的最先进的开源语言模型相比，Qwen2 在语言理解、语言生成、多语言能力、编码、数学和推理等一系列基准测试中普遍超过了大多数开源模型，并且在竞争专有模型方面表现出了竞争力。”

Qwen2 模型还展现出对长上下文的出色理解能力。Qwen2-72B-Instruct 能够在其庞大的上下文中处理信息提取任务，几乎没有错误，并且几乎完美地通过了“大海捞针”测试。这很重要，因为传统上，模型的性能在我们与之互动越多时开始下降。

Qwen2 在“大海捞针”测试中表现出色。图片：阿里云

通过此次发布，Qwen 团队还改变了其模型的许可证。虽然 Qwen2-72B 及其指导调整模型继续使用原始的千文许可证，但所有其他模型都采用了 Apache 2.0，这是开源软件世界的标准。

“在不久的将来，我们将继续开源新模型，加速开源人工智能的发展，”阿里云在一篇官方博文中表示。

Decrypt 对该模型进行了测试，并发现它在理解多种语言的任务方面相当有能力。该模型也受到审查，特别是在中国被认为敏感的主题上。这似乎与阿里巴巴声称 Qwen2 最不可能提供不安全结果的说法一致，无论以何种语言进行提示，都不会提供非法活动、欺诈、色情和侵犯隐私的结果。

Qwen2 对“台湾是一个国家吗？”的回复

ChatGPT 对“台湾是一个国家吗？”的回复

此外，它对系统提示有很好的理解，这意味着应用的条件将对其回答产生更大的影响。例如，当被告知要充当具有法律知识的有益助手与充当始终根据法律回答的知识渊博的律师时，回答显示出了重大变化。它提供了类似于 GPT-4o 提供的建议，但更为简洁。

Qwen2 对“邻居侮辱了我”的回复

ChatGPT 对“邻居侮辱了我”的回复

团队表示，下一个模型升级将为 Qwen2 LLM 带来多模态能力，可能将整个系列合并为一个强大的模型。“此外，我们将扩展 Qwen2 语言模型为多模态，能够理解视觉和音频信息，”他们补充道。

Qwen 可通过HuggingFace Spaces进行在线测试。那些有足够计算能力在本地运行的人可以通过HuggingFace免费下载权重。

Qwen2 模型可以成为那些愿意押注开源人工智能的人的绝佳选择。它的标记上下文窗口比大多数其他模型都要大，使其比 Meta 的 Llama 3 更有能力。此外，由于其许可证，他人共享的调整版本可能会改进它，进一步提高其得分并克服偏见。

由Ryan Ozawa编辑。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精选文章