最佳生成性人工智能模型——从聊天机器人到图像和视频生成器

生成性人工智能的格局在2024年已经变成了一个高风险的战场，一群新兴公司正在冲击曾经由OpenAI统治的城堡。

似乎每个人和他们的技术精明的奶奶都在争夺人工智能的蛋糕，开发语言模型、智能代理AI、图像生成器，甚至还有一两个AI meme币的推销员。

基准测试的变化速度快于我们人类的跟进能力。几乎每周都有一些闪亮的新玩意儿进入市场——这里是更新的LLM，那里是加速的图像生成器，或者是下一代AI展示一些新奇的训练技术。

但在Decrypt，我们已经卷起袖子，尝试了所有这些。

我们检查了性能，按下了按钮，深入了解了最受欢迎的AI模型的内部工作原理和输出——还有一些不那么知名的模型。

现在已经明确，OpenAI并不是城里唯一的警长，我们汇编了一份顶尖模型的名单——那些让我们惊叹、困惑，并偶尔让我们喷出咖啡的生成性AI模型。

聊天机器人

聊天机器人是一个旨在模拟与人类用户对话的计算机程序。它使用自然语言处理和人工智能来理解用户输入并生成适当的响应。通常，人们将聊天机器人与LLM（大型语言模型）混淆。

如今，聊天机器人变得更加复杂，功能超出了文本生成的范围。它们现在可以浏览网页、生成和理解图像、与用户对话等。

以下是我们推荐的最佳聊天机器人列表：

金牌：OpenAI的ChatGPT

ChatGPT以每月20美元的价格提供广泛的功能，包括使用自然语言创建自定义代理、干净的界面、网页搜索和多种模型（推理、写作、视觉、语音和图像生成）。

银牌：Anthropic的Claude

一个优越的LLM，具有直观的用户界面，支持推理和代码生成的分屏功能，Claude支持百万令牌上下文和自定义代理。然而，它缺乏网页搜索和图像生成，且经常面临容量问题，迫使用户切换到较弱的模型或生成“简洁”的短答案。因此，它还不能成为最佳。

铜牌：Mistral AI的LeChat

这个免费的平台由Mistral Large提供支持，具有顶级的Flux图像生成和优越的网页搜索——在我们看来是最好的，甚至超过了SearchGPT。它支持文档/图像理解和开源AI代理，尽管文本质量落后于竞争对手。然而，Mistral Large LLM的实力不如其竞争对手，使其非常适合愿意为功能而牺牲文本质量的高级用户。

荣誉提名：Meta AI、Gemini（来自谷歌的AI工作室，而非主站）、Hugging Chat、Reka、Grok-2

大型语言模型

大型语言模型（LLM）是一个人工智能系统，经过大量文本数据的训练，以理解和生成类人语言。你可以把它看作是一个被美化的自动完成功能。它们旨在预测在一组中最可能的令牌（想想单词，尽管这不是一个准确的比较）。

结果是自然的文本，感觉像人类，因为，嗯，它类似于人类的行为。

以下是我们迄今为止最佳LLM的列表：

最佳通用型：OpenAI的GPT-4o

平衡创意写作、编码和推理，配备可自定义的“画布”功能，尽管其风格可能显得可预测。最新版本（自11月20日起）在LLM竞技场中也取得了第一的位置，ELO分数为1,366，击败了11月21日发布的谷歌Gemini实验版本。

最佳写作：Anthropic的Claude 3.5 Sonnet

在许多领域与GPT-4o相匹配或超越，输出更具创意和类人特征，尽管它容易出现幻觉。

最佳讲故事：Longwriter

在几分钟内生成超过10,000字的故事。我们还需要说更多吗？

最具多样性：Meta的Llama-3.1

领先的开源模型，具有广泛的自定义、LoRA创建和微调选项，提供从70亿到4050亿参数的多种规模，用户可以根据需求在本地机器或云服务器上运行。Nvidia开发了一个名为“Nemotron”的定制版本，在社区中引起了一些波动，值得一看。

最大失望：Reflection Llama-3.1 70B

宣布时寄予厚望，该模型声称由于其嵌入的思维链而击败了GPT-4o。结果却是一个重大失败，出现了虚假的基准测试、隐藏的Claude AI API调用，以及一场重大争议。

图像生成器

图像生成器本质上是一个模型，它接收文本输入并提供与该文本输入相关的输出。因此，例如，你说：“带有龙脸的绿色马”，模型将生成一张带有龙脸的绿色马的照片。你也可以输入类似“丰满的老婆”的内容，但这并不是它们的用途。

以下是一些当前可用的最佳图像生成器：

最佳通用型：Flux

Flux主导最新一代AI模型，具有实质性的自定义、LoRA/ControlNet支持和文本生成能力。它需要强大的硬件，但展现出极端的虚化效果和松弛的皮肤细节，用户仍在努力解决这些问题。

它有三种版本：Pro（闭源，最强大的模型）、Dev（非商业许可证）和Schnell（开源的精简版本）。这三种版本都提供出色的图像生成能力，如果考虑微调，性能上限将更高。

最佳现实主义：Recraft v3

提供无与伦比的现实主义，提供多样的预设，比MidJourney等专有替代品更具性价比。

它有一个免费层，提供相同的质量——尽管Recraft拥有生成权。

最佳动漫：MidJourney Niji

在动漫风格图像方面无与伦比的质量；稳定扩散的微调是一个次要选项。

最具多样性：Stable Diffusion 3.5

Stable Diffusion 3.5是SD3的重大改进，具有更好的许可、详细的输出和附加支持。

它在微调方面比Flux更高效，是一个完整的模型——与Flux Schnell（精简版本）不同——使其成为自定义模型的最佳选择。

然而，它发布得有些晚，已被Flux的受欢迎程度所掩盖。

最大失望：SD 3 Medium

每个人都期待这个新模型成为新的图像生成器之王，击败SDXL和其他所有模型。结果却是一个糟糕的模型，以其可怕的许可证和在尝试生成草地上的人时的可怕畸变而臭名昭著。

视频生成器

视频生成器将图像生成向前推进了一步。它们生成每一帧，并将其作为输入生成下一帧，确保图像一致性和高提示遵循度。

这仍然是一个正在进行的工作，模型只能生成几秒钟的视频。以下是一些你可以尝试的最佳视频生成器。

最佳通用型：Kling

快速改进的中国模型，在某些情况下超越了Sora。支持面部模型训练，并持续生成高质量场景，在风格、现实主义和相机运动方面展现出极大的多样性。

最佳竞争者：Runway Gen 3

Pioneering generative video 应用，具有扎实的环境理解，但在快速场景中表现不佳。

最佳讲故事：ShowRunner

我们不能告诉你很多关于这个模型的信息。然而，在保密测试中，它展现了巨大的潜力。

最佳开源：Genmo Mochi 1

这是一个出色的发布，以优越的现实主义和帧一致性击败了Rhymes Allegro和Stable Video Diffusion等竞争对手。

最大失望：OpenAI Sora

宣布时寄予厚望，作为一种超越任何视频生成的革命性“世界模型”，但至今仍不可用，且泄露的输出令人失望。

荣誉提名：Google Veo

谷歌的Veo于12月3日发布。我们还没有测试它，但谷歌分享的生成效果看起来相当不错。当然，我们在等待名单上，一旦获得访问权限，你将是第一个知道我们想法的人。

音乐生成器

就像视频生成器一样，音乐生成器创造歌曲。然而，它与音频生成器不同，因为输出更专注于旋律输出，而不是噪音、普通声音或音频效果。

用户可以依赖一个单独的LLM来生成歌曲的歌词，或手动输入歌词，并设置一些参数，如歌曲风格，然后模型将从头开始输出相关音乐。

以下是最佳的两个音乐生成器——加上一个开源替代品。

最佳通用型：Suno v4

在声乐和歌词、风格多样性和长格式一致性方面表现出色。它的前身Suno v3.5不是免费的，但仍然是一个强有力的替代品。

最佳竞争者：Udio

Suno最大的竞争对手。它提供令人印象深刻的作曲准确性，在声乐方面几乎可以与Suno v4相媲美。一些生成超越了Suno v3在主观风格上。

最佳开源：Stable Audio 2

开源领域在这一领域的进展不大。Stable Audio 2似乎是最佳模型，但在各个领域都落后于闭源竞争对手。Meta的AudioCraft和MusicGen是替代品，但远未达到行业领先水平。微调者并没有给予足够关注，通常，他们是让开源模型如此出色的“锦上添花”的人。

编辑：Andrew Hayward

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。