我发现对AI 编程的评测很多

我发现对AI 编程的评测很多，而对AI文本总结和写作方面的评测却非常少。

正好我最近有这方面的工作需求，对比分析几个主要AI的文字能力。就做一些总结。

对于实际使用的话，我就分为两大类。

第一类是gemini 3 pro， sonnet 4.5 和 gpt 5.1为阵营的大模型。

它们比其他的大模型表现更加出色，而这三个中最优的是gemini 3 pro。它写的报告，阅读体验最好，读起来流畅自然，极具感染力。

但是，这三个共同的特点，就是贵。主要两种场景可以

1）频次不高的写作

2）在网页或者客户端使用

但是，特别不适用api调用。

第二类：国产的几个大模型。

在很多场景下面，需要使用api来进行大量的文本总结分析，比如收集大量文章让AI出总结报告，写长篇小说，或者批量写文章。这种情况用第一类的模型，显然成本太大。这时候国产的几个大模型就是最好的选择了：成本可以节省很多，同时效果也还可以。

Kimi k2 Thinking

Kimi k2在文字写作上面是国内模型中表现最佳的。**它是优秀的新闻记者。文笔流畅度仅次于 Gemini 3，擅长平衡报道。API的成本也是国产模型内最贵的，但是依然比国外大模型便宜很多。

DeepSeek V3.2

deepseek v3.2是刚发布的正式板。它逻辑清晰，信息量大，读起来不如Gemini轻松，但是也还可以。它对大量文本的内容挖掘是最深的。

它现在是我选择使用的模型，在大量文本进行总结分析的情况下，它表现很好，api也便宜

Qwen3-235b-a22b-thinking

阿里的Qwen3，它的文章特别专业，缺点是特别的长，而且阅读起来很难度。而且，它作为开源的模型，分析的时间是最长的，是别人的3倍以上。

Minimax M2

Minimax M2是一个中规中矩的模型，优点不突出，缺点也不明显。阅读提议良好，专业度良好，别人的缺点它也有，但是程度比较轻。让我感受不到用它的理由。

GLM 4.6

GLM 4.6这个模型，看的出来，它在很努力的满足我的prompt。但是总归还是差一点。比如说，我让prompt中要求结合提供的材料的基础上面进行分析，而它会大量引用材料，然后硬给一个总结。可能如GLM 4.6 官方介绍的一样，它是为了code 和agent而生的模型。

Doubao 251015

doubao 是表现最差的一个模型。它是丢失了所有细节、语境和情绪，分析深度最弱。

我也是非常的奇怪，doubao 1.6刚出来了，我是测试过这个性能的，当时表现是相当不错。它中间还升了一次级。为何表现会越来越差。看来大模型的降智不仅仅是claude，其他的大模型都有可能发生。

注：以上都使用thinking模式

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

日月小楚｜HZGB的精選文章