DeepSeek 在本周早些时候将 DeepSeek V4-Pro 的 75% 折扣改为永久有效。而现在,中国的 AI 实验室小米也将 MiMo-V2.5 API 的价格降低了多达 99%,针对缓存输入。市场上两款最强大的 AI 模型刚刚变得极其便宜,而美国实验室则在相反的方向上移动。
给在场的非开发者快速解释一下:当你在浏览器中使用 ChatGPT 或 Claude 时,你支付的是固定订阅费用——或者什么都不付。当一家公司在 AI 模型基础上构建产品时,他们按令牌计费,而一个令牌大致相当于三个字母的四分之三。每条发送的消息、每条生成的回复、每个处理的文档:这一切的费用都是以百万令牌的速度来计算的。
API 是实现这一切的原始管道,使得应用程序、代理、网站等能够在自己的环境中使用模型。因此,令牌定价决定了一个 AI 驱动的产品是否在经济上可行或是一个资金黑洞。
令牌计划是在此基础上的订阅包装。你提前购买积分;模型会消耗这些积分。小米的计费升级让用户以相同的价格获得 5 到 8 倍的令牌。现在 Max 计划以 100 美元的价格可获得 820 亿个令牌,而之前是 16 亿个。
作为参考,820 亿个令牌超过 600 亿个单词。
削减价格的原因是真实的,而非营销
小米 MiMo 团队负责人、前 DeepSeek 核心开发者罗富利在 X 上发布了一份技术解释。最大节省来自于一种更智能的信息存储和重用方式,而这些信息是 AI 已经处理过的。小米的系统可以一次记住更多的数据——大约比以前多五倍。这意味着 AI 所需的计算能力大大降低,从而将存储和处理成本降低了约 80%。
“在这些新降低的 API 价格下,我们的生产推理引擎几乎运行在满负荷的状态,并且我们仍然能够基本上收支平衡,”罗写道。“如果更多的架构能够节省计算和 KV [键值缓存],再加上更好的推理基础设施来降低 API 成本,这将形成行业内优秀的良性循环。”
DeepSeek 的架构 以不同方式落在同一地方。V4 使用两种交错的注意力类型——一种压缩每四个令牌以实现选择性注意,另一种将每 128 个令牌合并为最小计算的全局上下文。在一百万个令牌的上下文下,V4-Pro 的 KV 缓存只有其前身的 10% 大小,单个令牌推理的计算成本仅为此前的 27%。
最终的结果是这个模型的成本比 GPT-5.5 Pro 低 98%,但性能具有竞争力。
硅谷的赌注
Claude Opus 4.7 的输入令牌费用为每百万 5 美元,输出令牌费用为每百万 25 美元。Anthropic 维持了固定利率,但推出了一个新的分词器,可以为同样的输入文本生成 多达 35% 更多的令牌。所以价格没有上涨。你的账单仍然可能上涨。
GPT-5.5,在四月末发布,刚刚将其前身的输出价格提高了两倍,达到每百万 30 美元。Gemini 2.5 Pro 的输入价格为 1.25 美元,输出价格为 10 美元——按美国标准来看便宜。
DeepSeek V4-Pro 是一个拥有 1.6 万亿参数的模型,以极低的计算成本提供了一个庞大模型的知识库。它现在的永久定价为每百万令牌 0.435 美元的输入和 0.87 美元的输出。这是一个在 SWE-Verified 上得分 80.6%,与 Claude Opus 4.6 的 80.8% 相比的模型——这是一个测量真实 GitHub 问题解决的基准,而不是精心挑选的演示。具有基本相同编码得分的模型之间的定价差距:输出价是 34 倍。
MiMo-V2.5-Pro 在新削减后也符合每百万令牌 0.435/0.87 美元的定价。缓存命中降至 0.0036 美元。作为参考,这比大多数人发送短信时支付的每个字符的费用还要便宜。
DeepSeek 和小米并不孤单
这些价格削减出现在一个中国模型在此之前 已经便宜得多 的市场中。MiniMax M2.7,凭借人工分析与 Claude Opus 在编码基准上的较量,输入费用为每百万令牌 0.30 美元,输出费用为 1.20 美元——约为 Opus 4.7 输出率的 5%。
来自 Moonshot AI 的 Kimi K2.5,在 SWE-bench Verified 上获 76.8% 的评分,输入费用为 0.60 美元,输出费用为 2.50 美元。Z.AI 的 GLM-5.1 在本季度早些时候在一个关键编码基准上超越了 Claude Opus 4.6。今年 5 月初,四个中国前沿模型在 12 天内发布,所有模型的每令牌成本均不到 Opus 4.7 的三分之一。
为了更好地可视化,这张图表显示了中国模型在价格与质量比方面与三大美国 AI 提供商(Anthropic、OpenAI 和 Meta)的比较。
图片:Artificialanalysis.ai
2026 年第二季度,中美前沿模型之间的差距在 15 到 30 倍之间,具体取决于你比较哪些模型——这是基线,在任何缓存折扣之前。
本周的削减使得特定负载的差距进一步缩小,这些负载在生产中实际运行:具有稳定系统提示的代理管道、文档处理器、检索工具和那些不断命中的缓存的东西。以每百万缓存输入令牌 0.003625 美元的价格,DeepSeek V4-Pro 的重复上下文成本在实质上已成为舍入误差。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。