深度寻求，小米刚刚让前沿人工智能便宜了99%。美国实验室走向相反。

DeepSeek 在本周早些时候将 DeepSeek V4-Pro 的 75% 折扣改为永久有效。而现在，中国的 AI 实验室小米也将 MiMo-V2.5 API 的价格降低了多达 99%，针对缓存输入。市场上两款最强大的 AI 模型刚刚变得极其便宜，而美国实验室则在相反的方向上移动。

给在场的非开发者快速解释一下：当你在浏览器中使用 ChatGPT 或 Claude 时，你支付的是固定订阅费用——或者什么都不付。当一家公司在 AI 模型基础上构建产品时，他们按令牌计费，而一个令牌大致相当于三个字母的四分之三。每条发送的消息、每条生成的回复、每个处理的文档：这一切的费用都是以百万令牌的速度来计算的。

API 是实现这一切的原始管道，使得应用程序、代理、网站等能够在自己的环境中使用模型。因此，令牌定价决定了一个 AI 驱动的产品是否在经济上可行或是一个资金黑洞。

令牌计划是在此基础上的订阅包装。你提前购买积分；模型会消耗这些积分。小米的计费升级让用户以相同的价格获得 5 到 8 倍的令牌。现在 Max 计划以 100 美元的价格可获得 820 亿个令牌，而之前是 16 亿个。

作为参考，820 亿个令牌超过 600 亿个单词。

削减价格的原因是真实的，而非营销

小米 MiMo 团队负责人、前 DeepSeek 核心开发者罗富利在 X 上发布了一份技术解释。最大节省来自于一种更智能的信息存储和重用方式，而这些信息是 AI 已经处理过的。小米的系统可以一次记住更多的数据——大约比以前多五倍。这意味着 AI 所需的计算能力大大降低，从而将存储和处理成本降低了约 80%。

“在这些新降低的 API 价格下，我们的生产推理引擎几乎运行在满负荷的状态，并且我们仍然能够基本上收支平衡，”罗写道。“如果更多的架构能够节省计算和 KV [键值缓存]，再加上更好的推理基础设施来降低 API 成本，这将形成行业内优秀的良性循环。”

DeepSeek 的架构以不同方式落在同一地方。V4 使用两种交错的注意力类型——一种压缩每四个令牌以实现选择性注意，另一种将每 128 个令牌合并为最小计算的全局上下文。在一百万个令牌的上下文下，V4-Pro 的 KV 缓存只有其前身的 10% 大小，单个令牌推理的计算成本仅为此前的 27%。

最终的结果是这个模型的成本比 GPT-5.5 Pro 低 98%，但性能具有竞争力。

硅谷的赌注

Claude Opus 4.7 的输入令牌费用为每百万 5 美元，输出令牌费用为每百万 25 美元。Anthropic 维持了固定利率，但推出了一个新的分词器，可以为同样的输入文本生成多达 35% 更多的令牌。所以价格没有上涨。你的账单仍然可能上涨。

GPT-5.5，在四月末发布，刚刚将其前身的输出价格提高了两倍，达到每百万 30 美元。Gemini 2.5 Pro 的输入价格为 1.25 美元，输出价格为 10 美元——按美国标准来看便宜。

DeepSeek V4-Pro 是一个拥有 1.6 万亿参数的模型，以极低的计算成本提供了一个庞大模型的知识库。它现在的永久定价为每百万令牌 0.435 美元的输入和 0.87 美元的输出。这是一个在 SWE-Verified 上得分 80.6%，与 Claude Opus 4.6 的 80.8% 相比的模型——这是一个测量真实 GitHub 问题解决的基准，而不是精心挑选的演示。具有基本相同编码得分的模型之间的定价差距：输出价是 34 倍。

MiMo-V2.5-Pro 在新削减后也符合每百万令牌 0.435/0.87 美元的定价。缓存命中降至 0.0036 美元。作为参考，这比大多数人发送短信时支付的每个字符的费用还要便宜。

DeepSeek 和小米并不孤单

这些价格削减出现在一个中国模型在此之前已经便宜得多的市场中。MiniMax M2.7，凭借人工分析与 Claude Opus 在编码基准上的较量，输入费用为每百万令牌 0.30 美元，输出费用为 1.20 美元——约为 Opus 4.7 输出率的 5%。

来自 Moonshot AI 的 Kimi K2.5，在 SWE-bench Verified 上获 76.8% 的评分，输入费用为 0.60 美元，输出费用为 2.50 美元。Z.AI 的 GLM-5.1 在本季度早些时候在一个关键编码基准上超越了 Claude Opus 4.6。今年 5 月初，四个中国前沿模型在 12 天内发布，所有模型的每令牌成本均不到 Opus 4.7 的三分之一。

为了更好地可视化，这张图表显示了中国模型在价格与质量比方面与三大美国 AI 提供商（Anthropic、OpenAI 和 Meta）的比较。

图片：Artificialanalysis.ai

2026 年第二季度，中美前沿模型之间的差距在 15 到 30 倍之间，具体取决于你比较哪些模型——这是基线，在任何缓存折扣之前。

本周的削减使得特定负载的差距进一步缩小，这些负载在生产中实际运行：具有稳定系统提示的代理管道、文档处理器、检索工具和那些不断命中的缓存的东西。以每百万缓存输入令牌 0.003625 美元的价格，DeepSeek V4-Pro 的重复上下文成本在实质上已成为舍入误差。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

深度寻求，小米刚刚让前沿人工智能便宜了99%。美国实验室走向相反。

削减价格的原因是真实的，而非营销

硅谷的赌注

DeepSeek 和小米并不孤单

Decrypt的精选文章

目录

相关文章