Mistral AI 推出 Leanstral:首个支持形式化验证的开源代码 Agent

Mistral AI 于 3 月 17 日发布 Leanstral,这是首个专为形式化验证工具 Lean 4 设计的开源代码 Agent。该模型在生成代码的同时,能够输出可被 Lean 4 自动校验的形式化证明,有效突破传统 AI 代码生成依赖人工审查的瓶颈,显著提升可信代码产出效率。

技术架构与部署方式

Leanstral 采用稀疏 MoE 架构,具备 1200 亿总参数和 60 亿激活参数规模,以 Apache 2.0 协议开源。模型经过针对 lean-lsp-mcp 的专项训练优化,支持在 Mistral Vibe 平台通过命令 /leanstall 实现零配置启动,亦可通过免费 API 端点 labs-leanstral-2603 调用,或下载权重进行本地自部署,满足多样化使用场景需求。

性能表现与基准测试

Mistral 同步推出新评估基准 FLTEval,以 Lean 4 社区费马大定理形式化项目为测试场景。数据显示,Leanstral pass@2 在 36 美元成本下取得 26.3 分,超越成本 549 美元的 Claude Sonnet 4.6(23.7 分);pass@16 以 290 美元成本达 31.9 分,领先 Sonnet 8 分,而 Claude Opus 4.6 需 1,650 美元才达到 39.6 分。在开源模型中,Qwen3.5-397B-A17B 需运行 4 次才能达成 25.4 分,仍低于 Leanstral pass@2 表现。