即使是最糟糕的克劳德AI版本也比GPT 3.5好，研究人员表示

AI行业正在见证着备受瞩目的ChatGPT和Claude AI模型之间的激烈竞争。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织（LMSO）刚刚更新了他们的Chatbot Arena排行榜，反映了每个AI聊天机器人与竞争对手的表现。结果表明，Anthropic正在给OpenAI带来一场激烈的竞争，即使其模型仍然可以免费使用。

GPT-4是ChatGPT Plus和必应AI背后的强大引擎，以最高分数占据统治地位，为大型语言模型（LLMs）设定了黄金标准。但当我们向下看排行榜时，一个意想不到的黑马故事展开了。Anthropic的Claude模型——Claude 1、Claude 2和Claude Instant——都表现优于驱动ChatGPT免费版本的GPT-3.5。这意味着Anthropic开发的每个大型语言模型都能胜过ChatGPT的免费版本。

LMSO的细致排名系统提供了这些模型的性能指标。根据排行榜，GPT-4拥有1181的Arena Elo评分，明显领先榜单，而Claude模型紧随其后，评分范围从1119到1155。另一方面，GPT-3.5的评分为1115。

为了对模型进行排名，LMSO让它们在具有相似提示的比赛中“对战”。给出最佳答案的模型获胜，而另一个则失败。用户根据自己的偏好决定谁获胜，但他们永远不会知道哪些模型在竞争。

Image: LMSO

正如Decrypt之前报道的那样，ChatGPT Plus和Claude Pro在令牌处理能力上的差异虽然不是LMSO排名的因素，但也是Claude模型胜过GPT的一个主要优势。

“基于Claude 2 LLM的Claude Pro可以处理高达100K个信息令牌，而由GPT-4 LLM驱动的ChatGPT Plus只能处理8,192个令牌，”我们回忆道。这种令牌处理能力上的差异突显了Claude模型在处理广泛上下文输入方面的优势，这对于丰富和细致的用户体验至关重要。

此外，当处理长提示时，Claude 2表现出了优于GPT的优势，更高效地处理更大规模的提示。然而，当提示可比较时，Claude 1和Claude Instant提供了与GPT-3.5相似或略优的结果，展示了这些模型的竞争性质。凭借Claude的上下文能力，一个糟糕的初始答案可以通过更精炼、更大规模和更丰富的提示得到显著改善。

在这场竞赛中，开源模型也不甘落后。

WizardLM，这是一个基于Meta的LlaMA-2训练的模型，拥有700亿个参数，被认为是最优秀的开源LLM。紧随其后的是Vicuna 33B和Meta发布的原始LlaMA-2。

开源模型出于不同原因在AI领域的发展中扮演着重要角色。它们可以在本地运行，这为用户提供了调整它们的机会，并让社区共同努力完善模型。由于许可证的原因，它们的运行成本也更低，这就是为什么这个领域有数十个开源LLM，而专有模型只有少数几个。

但AI聊天机器人的竞争不仅仅是关于数字，它关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域变得不可或缺，它们的效力、适应性和准确性变得至关重要。随着Claude模型的排名高于GPT-3.5，企业和个人用户可能会发现自己面临抉择，评估哪种模型最符合他们的需求。Decrypt已经准备了两篇指南来帮助您决定哪种模型最适合您。

对于初学者来说，这可能看起来只是又一个排行榜的更新。但对于那些密切关注AI行业的人来说，这证明了竞争是多么激烈，潮流是多么迅速变化。对于我们这些坐在这两个阵营之间的人来说，这是一个提醒，在AI世界中，今天最受欢迎的模型可能会被最高效的模型取代。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

即使是最糟糕的克劳德AI版本也比GPT 3.5好，研究人员表示

Decrypt的精选文章

目录

相关文章