即使是最糟糕的克劳德AI版本也比GPT 3.5好,研究人员表示

CN
Decrypt
关注
1年前

AI行业正在见证着备受瞩目的ChatGPT和Claude AI模型之间的激烈竞争。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织(LMSO)刚刚更新了他们的Chatbot Arena排行榜,反映了每个AI聊天机器人与竞争对手的表现。结果表明,Anthropic正在给OpenAI带来一场激烈的竞争,即使其模型仍然可以免费使用。

GPT-4是ChatGPT Plus和必应AI背后的强大引擎,以最高分数占据统治地位,为大型语言模型(LLMs)设定了黄金标准。但当我们向下看排行榜时,一个意想不到的黑马故事展开了。Anthropic的Claude模型——Claude 1、Claude 2和Claude Instant——都表现优于驱动ChatGPT免费版本的GPT-3.5。这意味着Anthropic开发的每个大型语言模型都能胜过ChatGPT的免费版本。

LMSO的细致排名系统提供了这些模型的性能指标。根据排行榜,GPT-4拥有1181的Arena Elo评分,明显领先榜单,而Claude模型紧随其后,评分范围从1119到1155。另一方面,GPT-3.5的评分为1115。

为了对模型进行排名,LMSO让它们在具有相似提示的比赛中“对战”。给出最佳答案的模型获胜,而另一个则失败。用户根据自己的偏好决定谁获胜,但他们永远不会知道哪些模型在竞争。

Image: LMSO

正如Decrypt之前报道的那样,ChatGPT Plus和Claude Pro在令牌处理能力上的差异虽然不是LMSO排名的因素,但也是Claude模型胜过GPT的一个主要优势。

“基于Claude 2 LLM的Claude Pro可以处理高达100K个信息令牌,而由GPT-4 LLM驱动的ChatGPT Plus只能处理8,192个令牌,”我们回忆道。这种令牌处理能力上的差异突显了Claude模型在处理广泛上下文输入方面的优势,这对于丰富和细致的用户体验至关重要。

此外,当处理长提示时,Claude 2表现出了优于GPT的优势,更高效地处理更大规模的提示。然而,当提示可比较时,Claude 1和Claude Instant提供了与GPT-3.5相似或略优的结果,展示了这些模型的竞争性质。凭借Claude的上下文能力,一个糟糕的初始答案可以通过更精炼、更大规模和更丰富的提示得到显著改善。

在这场竞赛中,开源模型也不甘落后。

WizardLM,这是一个基于Meta的LlaMA-2训练的模型,拥有700亿个参数,被认为是最优秀的开源LLM。紧随其后的是Vicuna 33B和Meta发布的原始LlaMA-2。

开源模型出于不同原因在AI领域的发展中扮演着重要角色。它们可以在本地运行,这为用户提供了调整它们的机会,并让社区共同努力完善模型。由于许可证的原因,它们的运行成本也更低,这就是为什么这个领域有数十个开源LLM,而专有模型只有少数几个。

但AI聊天机器人的竞争不仅仅是关于数字,它关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域变得不可或缺,它们的效力、适应性和准确性变得至关重要。随着Claude模型的排名高于GPT-3.5,企业和个人用户可能会发现自己面临抉择,评估哪种模型最符合他们的需求。Decrypt已经准备了两篇 指南来帮助您决定哪种模型最适合您。

对于初学者来说,这可能看起来只是又一个排行榜的更新。但对于那些密切关注AI行业的人来说,这证明了竞争是多么激烈,潮流是多么迅速变化。对于我们这些坐在这两个阵营之间的人来说,这是一个提醒,在AI世界中,今天最受欢迎的模型可能会被最高效的模型取代。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

HTX:注册并领取8400元新人礼
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接