Gemini 3 Flash在代理任务中表现最优

3月8日,OpenClaw(AI代理开发框架)创始人Peter Steinberger转发了第三方机构PinchBench发布的基准测试结果,该测试聚焦于大语言模型在OpenClaw代理任务中的实际执行能力。结果显示,Gemini 3 Flash在任务成功率上达到95.1%,位列第一,展现出卓越的推理与任务规划能力。

国产模型表现亮眼,跻身前列

紧随其后的是两款国产模型:minimax-m2.1以93.6%的成功率排名第二,kimi-k2.5以93.4%的成绩位列第三。两者在复杂任务处理中表现出较强的稳定性与适应性,显示出国内AI研发在实际应用层面的快速进展。

主流模型各有优劣

Claude Sonnet 4.5以92.7%的成功率位居第四,显示其在多步骤任务中具备良好表现;而GPT-4o则以85.2%的完成率处于较低位置,反映出在特定代理任务场景下的局限性。此次测试为开发者选择适合应用场景的AI模型提供了重要参考。