EVMbench基准测试遭安全公司质疑数据污染与漏洞分类存重大缺陷

核心提要：OpenZeppelin在审核OpenAI与Paradigm推出的EVMbench基准测试时发现方法学缺陷与数据污染问题，指出多个高危漏洞实际无法利用，且顶级AI模型可能已提前接触测试数据，影响评估有效性。强调构建可信安全评估体系的重要性。

EVMbench基准测试引发安全审核关注

OpenZeppelin在对OpenAI与加密投资公司Paradigm联合推出的EVMbench基准测试进行审查后，揭示其在方法学设计与数据完整性方面存在显著问题。该基准旨在衡量人工智能模型在识别、修补及利用智能合约漏洞方面的表现，但其测试结果的可靠性受到质疑。

数据污染削弱评估公信力

审核发现，测试所用数据集涵盖2024年至2025年中期的120项审计案例，而多数主流AI模型的训练截止时间恰好为2025年中。这意味着，得分领先的AI代理很可能已在预训练阶段接触过这些漏洞报告，尽管测试期间切断了网络访问以防止实时搜索。这种知识重叠导致模型并非真正“发现”新漏洞，而是基于已有记忆进行匹配，严重削弱了评估的公平性与真实性。此外，数据集规模有限，进一步放大了数据污染的影响范围。

高危漏洞分类存在实质性错误

OpenZeppelin确认，至少有四个被标记为高危的漏洞在实际环境中无法被成功利用。这些漏洞的描述方式或执行条件存在根本性缺陷，使得相关行为无法构成有效攻击路径。然而，基准测试仍对AI代理“发现”此类无效漏洞的行为给予评分，这不仅误导评估结果，更可能导致后续安全工具开发方向出现偏差。

AI赋能区块链安全需建立可信标准

尽管人工智能在提升智能合约安全方面具有巨大潜力，但其发展必须建立在严谨的数据基础与透明的评估机制之上。OpenZeppelin强调，真正的挑战不在于是否使用AI，而在于我们如何构建和验证用于衡量其能力的基准体系。唯有确保测试数据未被污染、漏洞分类真实可复现，才能让AI真正成为区块链生态的安全守护者，而非仅能复制已有答案的“记忆机器”。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

EVMbench基准测试遭安全公司质疑 数据污染与漏洞分类存重大缺陷

EVMbench基准测试引发安全审核关注

数据污染削弱评估公信力

高危漏洞分类存在实质性错误

AI赋能区块链安全需建立可信标准

相关阅读

EVMbench基准测试遭安全公司质疑数据污染与漏洞分类存重大缺陷