Databricks 称：顶级 AI 模型在日常企业任务中落后，小型专业化模型表现更佳

4 月 20 日——Databricks 的 David Meyer 表示，顶级 AI 模型擅长解决奥林匹克竞赛数学等复杂问题，但在日常企业工作中却力不从心。某些模型可能会把不正确的发票号码改正掉，而不是将其标记为错误；同时，像 Claude 这样的编程工具在数据工程任务上也可能表现不佳。

这一差距源于企业数据与用于训练大型模型的公开网络文本之间存在根本差异。企业数据往往具有含糊的列名、数量众多的空字段，以及以纯文本形式存储的代码。在一项学术研究中，用于平衡精确率和召回率的 AI 模型 F1 分数，在公共数据上为 0.94，而在企业数据上则降至 0.07，用于数据工程任务。此外，大型模型往往会默认采用训练中熟悉的模式；有些即使在收到公司专有查询语言的指令和文档后，仍然默认使用结构化查询语言 (SQL)。

通过强化学习调优的小型开源模型，可以比大型通用模型更高效地完成特定工作，且培训成本显著更低。Databricks 正在为特定工作流程构建更小的 AI 代理，例如 KARL，它使用强化学习进行多步骤推理，且处理的是公司文档。行业正从依赖巨型模型转向混合架构：由小而高效的模型处理日常的海量任务，然后仅在遇到不清楚或复杂的情况时才升级到更大、更昂贵的系统。

Databricks 最近收购了 Quotient AI，帮助大型企业更可靠地运行 AI 代理。如今，AI 业务的竞争焦点在于运行完整的 AI 生命周期，包括用于跟踪错误的反馈系统，以及随着时间推移持续改进模型，使得评估和调优工具在部署之后愈发重要.

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

Databricks 称：顶级 AI 模型在日常企业任务中落后，小型专业化模型表现更佳

相关阅读