Google DeepMind 发布了 AI 共数学家(AI co-mathematician),一种多智能体数学研究助手,在 FrontierMath 第 4 级基准上实现 47.9% 的准确率,超越 GPT-5.5 Pro 在 5 月 9 日创下的先前纪录(39.6%)。该系统解决了 48 道题中的 23 道题,包括 3 道此前所有模型都无法解答的问题。该系统基于 Gemini 3.1 Pro 构建,采用分层架构:项目协调员智能体向子智能体分发任务,由子智能体分别负责文献检索、编码与推理,并在提交前由多个审阅智能体对证明进行验证。

Epoch AI 进行了盲测,确保 DeepMind 团队看不到题目,每道题允许进行 48 小时的计算。在实际应用中,数学家 Marc Lackenby 使用该系统解决了《Kourovka Notebook》中的一个未决猜想,展示了其实际研究价值。目前,该系统正处于测试版阶段,仅向少数数学家开放。