Inception Labs的水星二号人工智能在自己的领域击败了谷歌的扩散杰美。

Inception Labs 在星期四推出了 Mercury 2，称其为世界上最快的推理语言模型。根据公司的公告，它每秒生成大约 1000 个标记——人工智能模型阅读和写作的文本块——而 Anthropic 的 Claude Haiku 4.5 推理约为每秒 89 个标记，OpenAI 的 GPT-5 Mini 为 71 个标记。

这使其处于谷歌后来声称的 DiffusionGemma 同样的速度区间。

这两个模型通过放弃打字机式的写作方式达到了这个速度。标准的聊天机器人每次写一个单词，检查刚写的内容，然后写下一个，循环直到答案完成。而扩散模型则通过用随机的占位符标记填充一块文本，并在少量并行传递中消除噪音来实现——这个技巧在像稳定扩散这样的图像生成器中将静态转变为照片——直到整个块同时锁定为一个完成的回应。

两者的分歧在于什么能在这个过程中存活下来。在 AIME 2026——由真实的美国邀请数学考试问题构建并按正确解决的百分比评分——Mercury 2 达到了 90%。谷歌在同一组测试中测试了 DiffusionGemma，得分为 69.1%，而标准的非扩散 Gemma 4 在同一测试中得分为 88.3%。

在 GPQA，一个博士级别的科学基准按同样方式评分，这两个模型几乎打成平手：Mercury 2 为 77%，DiffusionGemma 为 73.2%。但谷歌自己的开发者指南推荐标准的 Gemma 4 用于要求最高质量的应用，承认 DiffusionGemma 在各个方面落后于它。

速度的声明在实验室之外同样成立。人工智能编码代理公司 Augment Code 在其上下文压缩子代理中用 Mercury 2 替换了 Anthropic 的 Claude Opus 4.7，看到延迟下降了 82%，成本减少了 90%，同时报告输出质量相同，依据一个联合案例研究。

Inception 的建立基于其创始人 Stefano Ermon 的研究，他是斯坦福大学的教授，并共同开发了推动当今图像生成器的基于分数的扩散技术。该初创公司的 5000 万美元融资回合得到了 Nvidia 风投部门和个人投资者 Andrew Ng 和 Andrej Karpathy 的支持。

对于非技术用户来说，大多数人意识不到但直到感受到的主要事情是“流程”。传统模型让你在长时间的会话中等待思想之间的间隔。这种扩散模型则使人工智能感觉像是在跟上你的步伐——即时自动完成、代码或计划的快速迭代，以及可以处理乏味高重复工作的子代理，而不会拖慢整个系统。

那个子代理层是一个有趣的架构转变。复杂的人工智能系统不再是一个巨大的智能模型。它们是专门助手的管弦乐团：一个用于深度推理，几个用于快速总结、路由、工具查找、输出检查等。顺序模型使这些实用调用变得昂贵而缓慢。并行扩散模型则使它们变得便宜且够快，可自由使用。

对于普通用户的现实警告：这些仍然最好用于对速度敏感的高容量工作流程部分，而非绝对最困难的前沿推理（在这方面，最大的增强现实模型可能仍然占有优势）。Mercury 2 不是开放权重，因此目前是 API/云。而且和谷歌的版本一样，完整的生态系统（本地运行时、代理框架）仍在赶上，以便无处不在地实现无缝连接。

立即涌现的用例：实时快速编程和“氛围编码”，其中模型跟上你的编辑、多个代理编码或支持系统，其中发生大量快速子调用、不会感觉滞后的语音接口，以及任何对延迟敏感的自动完成或下一个动作预测。在规模上，标准硬件上通过更高吞吐量所带来的成本和能源节省迅速积累。

数字 Inception 分享的（以及独立评估）在视觉上论证了这一点：Mercury 2 位于扩散模型的“快速且优秀”象限，将曾经需要异国硬件的需求降低到商品级 GPU。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Inception Labs的水星二号人工智能在自己的领域击败了谷歌的扩散杰美。

Decrypt的精选文章

目录

相关文章