Google DeepMind 高管：每家 AI 产品公司都应构建定制基准

4月27日——Google DeepMind 的资深产品经理、Google AI Studio 的产品负责人 Logan Kilpatrick 在 X 上表示，所有构建基于 AI 的产品的公司都应当建立各自的定制基准，用于衡量 AI 模型的性能。他将其描述为一种方法：让模型改进“对贵公司产生不成比例的收益”，并敦促创始人和商业领袖“从明天开始。”

目前，多数公司依赖公开排行榜来选择 AI 模型，但这些排行榜衡量的是通用能力，而往往与特定的业务场景不匹配。Kilpatrick 举了一个合同审查公司的例子，该公司最关心的是条款提取的准确性——这一能力在公开基准中缺失，因而无法评估模型在该任务上的表现。定制基准带来两项关键优势：首先，它们使公司能够针对自身的业务任务来评估每一次模型更新，并选择在其实际用例中表现最佳的模型，而不是只看总体排名最高的模型；其次，它们允许公司将这些测试集与模型提供方共享，从而推动在对公司业务而言重要的领域实现持续优化。

Kilpatrick 指出，像 Zapier 和 Sierra 这样的公司已经在实施这种做法，并表示“这里可以创造出大量的 alpha”。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

Google DeepMind 高管：每家 AI 产品公司都应构建定制基准

相关阅读