我发现对AI 编程的评测很多,而对AI文本总结和写作方面的评测却非常少。
正好我最近有这方面的工作需求,对比分析几个主要AI的文字能力。就做一些总结。
对于实际使用的话,我就分为两大类。
第一类是gemini 3 pro, sonnet 4.5 和 gpt 5.1为阵营的大模型。
它们比其他的大模型表现更加出色,而这三个中最优的是gemini 3 pro。它写的报告,阅读体验最好,读起来流畅自然,极具感染力。
但是,这三个共同的特点,就是贵。主要两种场景可以
1)频次不高的写作
2)在网页或者客户端使用
但是,特别不适用api调用。
第二类:国产的几个大模型。
在很多场景下面,需要使用api来进行大量的文本总结分析, 比如收集大量文章让AI出总结报告,写长篇小说,或者批量写文章。这种情况用第一类的模型,显然成本太大。这时候国产的几个大模型就是最好的选择了:成本可以节省很多,同时效果也还可以。
Kimi k2 Thinking
Kimi k2在文字写作上面是国内模型中表现最佳的。**它是优秀的新闻记者。文笔流畅度仅次于 Gemini 3,擅长平衡报道。API的成本也是国产模型内最贵的,但是依然比国外大模型便宜很多。
DeepSeek V3.2
deepseek v3.2是刚发布的正式板。它逻辑清晰,信息量大,读起来不如Gemini轻松,但是也还可以。它对大量文本的内容挖掘是最深的。
它现在是我选择使用的模型,在大量文本进行总结分析的情况下,它表现很好,api也便宜
Qwen3-235b-a22b-thinking
阿里的Qwen3,它的文章特别专业,缺点是特别的长,而且阅读起来很难度。而且,它作为开源的模型,分析的时间是最长的,是别人的3倍以上。
Minimax M2
Minimax M2是一个中规中矩的模型,优点不突出,缺点也不明显。阅读提议良好,专业度良好,别人的缺点它也有,但是程度比较轻。让我感受不到用它的理由。
GLM 4.6
GLM 4.6这个模型,看的出来,它在很努力的满足我的prompt。但是总归还是差一点。比如说,我让prompt中要求结合提供的材料的基础上面进行分析,而它会大量引用材料,然后硬给一个总结。可能如GLM 4.6 官方介绍的一样,它是为了code 和agent而生的模型。
Doubao 251015
doubao 是表现最差的一个模型。它是丢失了所有细节、语境和情绪,分析深度最弱。
我也是非常的奇怪,doubao 1.6刚出来了,我是测试过这个性能的,当时表现是相当不错。它中间还升了一次级。为何表现会越来越差。看来大模型的降智不仅仅是claude,其他的大模型都有可能发生。
注:以上都使用thinking模式
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。