人工智能代理能否提升以太坊安全性？OpenAI和Paradigm创建了一个测试平台

ChatGPT 制造商 OpenAI 和专注于加密货币的投资公司 Paradigm 推出了 EVMbench，这是一种帮助改善以太坊虚拟机智能合约安全性的工具。

EVMbench 旨在评估 AI 代理检测、修补和利用以太坊虚拟机（EVM）智能合约中的高严重性漏洞的能力。

智能合约是以太坊网络的核心，包含了从去中心化金融协议到代币发行的所有代码。根据 Token Terminal 的数据，2025年11月每周在以太坊上部署的智能合约数量达到了历史新高的170万，其中仅上周就部署了669,500个。

EVMbench 来自于40个审计中精选的120个漏洞，大多数来源于开源审计竞赛，如 Code4rena，依据一篇 OpenAI 博客文章。它还包括了来自 Tempo 的安全审计过程中的场景，这是 Stripe 为高吞吐量、低成本稳定币支付而构建的专用第一级区块链。

支付巨头 Stripe 于12月推出了 Tempo 的公共测试网络，并表示当时该网络是在包括 Visa、Shopify 和 OpenAI 等多方的意见基础上建立的。

目标是将测试以经济上有意义的、现实世界的代码为基础——特别是在 AI 驱动的稳定币支付扩展时，该公司补充道。

EVMbench 旨在跨三个模式评估 AI 模型：检测、修补和利用。在“检测”模式中，代理审计代码库，并根据其对真实漏洞的召回率进行评分。在“修补”模式中，代理必须在不破坏预期功能的前提下消除漏洞。最后，在“利用”阶段，代理尝试在沙盒区块链环境中进行端到端的资金耗尽攻击，评分通过确定性交易重放进行。

在利用模式中， GPT-5.3-Codex 在 OpenAI 的 Codex CLI 上运行时，达到了 72.2% 的得分，而六个月前发布的 GPT-5 则仅为 31.9%。在检测和修补任务中的表现较弱，代理有时未能彻底审计，或难以保持完整的合约功能。

ChatGPT 制造商的研究人员警告称，EVMbench 并未完全捕捉现实世界的安全复杂性。不过，他们补充道，在经济相关的环境中测量 AI 性能至关重要，因为模型正变成攻击者和防御者的强大工具。

山姆·阿尔特曼的 OpenAI 和以太坊的联合创始人维塔利克·布特林之前在 AI 发展速度上存在分歧。

2025 年 1 月，阿尔特曼表示他的公司“有信心知道如何构建我们传统理解中的 AGI。”但布特林主张，AI 系统应包括一种“软暂停”能力，如果出现预警信号，可以暂时限制工业规模的 AI 操作。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

人工智能代理能否提升以太坊安全性？OpenAI和Paradigm创建了一个测试平台

Decrypt的精选文章

目录

相关文章