EVMbench基准测试引发安全审核关注

OpenZeppelin在对OpenAI与加密投资公司Paradigm联合推出的EVMbench基准测试进行审查后,揭示其在方法学设计与数据完整性方面存在显著问题。该基准旨在衡量人工智能模型在识别、修补及利用智能合约漏洞方面的表现,但其测试结果的可靠性受到质疑。

数据污染削弱评估公信力

审核发现,测试所用数据集涵盖2024年至2025年中期的120项审计案例,而多数主流AI模型的训练截止时间恰好为2025年中。这意味着,得分领先的AI代理很可能已在预训练阶段接触过这些漏洞报告,尽管测试期间切断了网络访问以防止实时搜索。 这种知识重叠导致模型并非真正“发现”新漏洞,而是基于已有记忆进行匹配,严重削弱了评估的公平性与真实性。此外,数据集规模有限,进一步放大了数据污染的影响范围。

高危漏洞分类存在实质性错误

OpenZeppelin确认,至少有四个被标记为高危的漏洞在实际环境中无法被成功利用。这些漏洞的描述方式或执行条件存在根本性缺陷,使得相关行为无法构成有效攻击路径。 然而,基准测试仍对AI代理“发现”此类无效漏洞的行为给予评分,这不仅误导评估结果,更可能导致后续安全工具开发方向出现偏差。

AI赋能区块链安全需建立可信标准

尽管人工智能在提升智能合约安全方面具有巨大潜力,但其发展必须建立在严谨的数据基础与透明的评估机制之上。OpenZeppelin强调,真正的挑战不在于是否使用AI,而在于我们如何构建和验证用于衡量其能力的基准体系。 唯有确保测试数据未被污染、漏洞分类真实可复现,才能让AI真正成为区块链生态的安全守护者,而非仅能复制已有答案的“记忆机器”。