Sahara AI与微软共建MATHVISTA基准,加速AI推理能力验证

人工智能企业Sahara AI于3月18日宣布与微软达成战略合作,共同推出面向多模态大模型的开源评估基准MATHVISTA。该基准聚焦真实世界复杂情境下的推理与决策测试,旨在全面衡量GPT-4V、Claude及Gemini等主流模型的实际表现。

高质量标注数据成AI代理核心支撑,应用范围持续扩展

MATHVISTA所依赖的高精度标注数据被视为构建可靠智能体决策体系的基础,直接影响数百万用户日常交互体验。目前该基准文件累计下载量已超过27万次,获微软、亚马逊、Snap及麻省理工学院(MIT)等多家科技巨头与科研机构采纳,广泛应用于其Agentic AI系统研发与性能优化。