人工智能代理能否提升以太坊安全性?OpenAI和Paradigm创建了一个测试平台

CN
Decrypt
关注
13小时前

ChatGPT 制造商 OpenAI 和专注于加密货币的投资公司 Paradigm 推出了 EVMbench,这是一种帮助改善 以太坊虚拟机 智能合约安全性的工具。


EVMbench 旨在评估 AI 代理检测、修补和利用以太坊虚拟机(EVM)智能合约中的高严重性漏洞的能力。


智能合约以太坊 网络的核心,包含了从 去中心化金融 协议到代币发行的所有代码。根据 Token Terminal 的数据,2025年11月每周在以太坊上部署的智能合约数量达到了历史新高的170万,其中仅上周就部署了669,500个。





EVMbench 来自于40个审计中精选的120个漏洞,大多数来源于开源审计竞赛,如 Code4rena,依据一篇 OpenAI 博客文章。它还包括了来自 Tempo 的安全审计过程中的场景,这是 Stripe 为高吞吐量、低成本稳定币支付而构建的专用第一级区块链。


支付巨头 Stripe 于12月推出了 Tempo 的公共测试网络,并表示当时该网络是在包括 Visa、Shopify 和 OpenAI 等多方的意见基础上建立的。


目标是将测试以经济上有意义的、现实世界的代码为基础——特别是在 AI 驱动的稳定币支付扩展时,该公司补充道。



EVMbench 旨在跨三个模式评估 AI 模型:检测、修补和利用。在“检测”模式中,代理审计代码库,并根据其对真实漏洞的召回率进行评分。在“修补”模式中,代理必须在不破坏预期功能的前提下消除漏洞。最后,在“利用”阶段,代理尝试在沙盒区块链环境中进行端到端的资金耗尽攻击,评分通过确定性交易重放进行。


在利用模式中, GPT-5.3-Codex 在 OpenAI 的 Codex CLI 上运行时,达到了 72.2% 的得分,而六个月前发布的 GPT-5 则仅为 31.9%。在检测和修补任务中的表现较弱,代理有时未能彻底审计,或难以保持完整的合约功能。


ChatGPT 制造商的研究人员警告称,EVMbench 并未完全捕捉现实世界的安全复杂性。不过,他们补充道,在经济相关的环境中测量 AI 性能至关重要,因为模型正变成攻击者和防御者的强大工具。


山姆·阿尔特曼的 OpenAI 和以太坊的联合创始人维塔利克·布特林 之前在 AI 发展速度上存在分歧


2025 年 1 月,阿尔特曼表示他的公司“有信心知道如何构建我们传统理解中的 AGI。”但布特林主张,AI 系统应包括一种“软暂停”能力,如果出现预警信号,可以暂时限制工业规模的 AI 操作。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接