我发现对AI 编程的评测很多

CN
3 小時前

我发现对AI 编程的评测很多,而对AI文本总结和写作方面的评测却非常少。

正好我最近有这方面的工作需求,对比分析几个主要AI的文字能力。就做一些总结。

对于实际使用的话,我就分为两大类。

第一类是gemini 3 pro, sonnet 4.5 和 gpt 5.1为阵营的大模型。

它们比其他的大模型表现更加出色,而这三个中最优的是gemini 3 pro。它写的报告,阅读体验最好,读起来流畅自然,极具感染力。

但是,这三个共同的特点,就是贵。主要两种场景可以

1)频次不高的写作

2)在网页或者客户端使用

但是,特别不适用api调用。

第二类:国产的几个大模型。

在很多场景下面,需要使用api来进行大量的文本总结分析, 比如收集大量文章让AI出总结报告,写长篇小说,或者批量写文章。这种情况用第一类的模型,显然成本太大。这时候国产的几个大模型就是最好的选择了:成本可以节省很多,同时效果也还可以。

Kimi k2 Thinking

Kimi k2在文字写作上面是国内模型中表现最佳的。**它是优秀的新闻记者。文笔流畅度仅次于 Gemini 3,擅长平衡报道。API的成本也是国产模型内最贵的,但是依然比国外大模型便宜很多。

DeepSeek V3.2

deepseek v3.2是刚发布的正式板。它逻辑清晰,信息量大,读起来不如Gemini轻松,但是也还可以。它对大量文本的内容挖掘是最深的。

它现在是我选择使用的模型,在大量文本进行总结分析的情况下,它表现很好,api也便宜

Qwen3-235b-a22b-thinking

阿里的Qwen3,它的文章特别专业,缺点是特别的长,而且阅读起来很难度。而且,它作为开源的模型,分析的时间是最长的,是别人的3倍以上。

Minimax M2

Minimax M2是一个中规中矩的模型,优点不突出,缺点也不明显。阅读提议良好,专业度良好,别人的缺点它也有,但是程度比较轻。让我感受不到用它的理由。

GLM 4.6

GLM 4.6这个模型,看的出来,它在很努力的满足我的prompt。但是总归还是差一点。比如说,我让prompt中要求结合提供的材料的基础上面进行分析,而它会大量引用材料,然后硬给一个总结。可能如GLM 4.6 官方介绍的一样,它是为了code 和agent而生的模型。

Doubao 251015

doubao 是表现最差的一个模型。它是丢失了所有细节、语境和情绪,分析深度最弱。

我也是非常的奇怪,doubao 1.6刚出来了,我是测试过这个性能的,当时表现是相当不错。它中间还升了一次级。为何表现会越来越差。看来大模型的降智不仅仅是claude,其他的大模型都有可能发生。

注:以上都使用thinking模式


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接