Inception Labs 在星期四推出了 Mercury 2,称其为世界上最快的推理语言模型。根据公司的公告,它每秒生成大约 1000 个标记——人工智能模型阅读和写作的文本块——而 Anthropic 的 Claude Haiku 4.5 推理约为每秒 89 个标记,OpenAI 的 GPT-5 Mini 为 71 个标记。
这使其处于谷歌后来声称的 DiffusionGemma 同样的速度区间。
这两个模型通过放弃打字机式的写作方式达到了这个速度。标准的聊天机器人每次写一个单词,检查刚写的内容,然后写下一个,循环直到答案完成。而扩散模型则通过用随机的占位符标记填充一块文本,并在少量并行传递中消除噪音来实现——这个技巧在像稳定扩散这样的图像生成器中将静态转变为照片——直到整个块同时锁定为一个完成的回应。
两者的分歧在于什么能在这个过程中存活下来。在 AIME 2026——由真实的美国邀请数学考试问题构建并按正确解决的百分比评分——Mercury 2 达到了 90%。谷歌在同一组测试中测试了 DiffusionGemma,得分为 69.1%,而标准的非扩散 Gemma 4 在同一测试中得分为 88.3%。
在 GPQA,一个博士级别的科学基准按同样方式评分,这两个模型几乎打成平手:Mercury 2 为 77%,DiffusionGemma 为 73.2%。但谷歌自己的开发者指南推荐标准的 Gemma 4 用于要求最高质量的应用,承认 DiffusionGemma 在各个方面落后于它。
速度的声明在实验室之外同样成立。人工智能编码代理公司 Augment Code 在其上下文压缩子代理中用 Mercury 2 替换了 Anthropic 的 Claude Opus 4.7,看到延迟下降了 82%,成本减少了 90%,同时报告输出质量相同,依据一个 联合案例研究。
Inception 的建立基于其创始人 Stefano Ermon 的研究,他是斯坦福大学的教授,并共同开发了推动当今图像生成器的基于分数的扩散技术。该初创公司的 5000 万美元融资回合得到了 Nvidia 风投部门和个人投资者 Andrew Ng 和 Andrej Karpathy 的支持。
对于非技术用户来说,大多数人意识不到但直到感受到的主要事情是“流程”。传统模型让你在长时间的会话中等待思想之间的间隔。这种扩散模型则使人工智能感觉像是在跟上你的步伐——即时自动完成、代码或计划的快速迭代,以及可以处理乏味高重复工作的子代理,而不会拖慢整个系统。
那个子代理层是一个有趣的架构转变。复杂的人工智能系统不再是一个巨大的智能模型。它们是专门助手的管弦乐团:一个用于深度推理,几个用于快速总结、路由、工具查找、输出检查等。顺序模型使这些实用调用变得昂贵而缓慢。并行扩散模型则使它们变得便宜且够快,可自由使用。
对于普通用户的现实警告:这些仍然最好用于对速度敏感的高容量工作流程部分,而非绝对最困难的前沿推理(在这方面,最大的增强现实模型可能仍然占有优势)。Mercury 2 不是开放权重,因此目前是 API/云。而且和谷歌的版本一样,完整的生态系统(本地运行时、代理框架)仍在赶上,以便无处不在地实现无缝连接。
立即涌现的用例:实时快速编程和“氛围编码”,其中模型跟上你的编辑、多个代理编码或支持系统,其中发生大量快速子调用、不会感觉滞后的语音接口,以及任何对延迟敏感的自动完成或下一个动作预测。在规模上,标准硬件上通过更高吞吐量所带来的成本和能源节省迅速积累。
数字 Inception 分享的(以及独立评估)在视觉上论证了这一点:Mercury 2 位于扩散模型的“快速且优秀”象限,将曾经需要异国硬件的需求降低到商品级 GPU。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。