这一差距源于企业数据与用于训练大型模型的公开网络文本之间存在根本差异。企业数据往往具有含糊的列名、数量众多的空字段,以及以纯文本形式存储的代码。在一项学术研究中,用于平衡精确率和召回率的 AI 模型 F1 分数,在公共数据上为 0.94,而在企业数据上则降至 0.07,用于数据工程任务。此外,大型模型往往会默认采用训练中熟悉的模式;有些即使在收到公司专有查询语言的指令和文档后,仍然默认使用结构化查询语言 (SQL)。
通过强化学习调优的小型开源模型,可以比大型通用模型更高效地完成特定工作,且培训成本显著更低。Databricks 正在为特定工作流程构建更小的 AI 代理,例如 KARL,它使用强化学习进行多步骤推理,且处理的是公司文档。行业正从依赖巨型模型转向混合架构:由小而高效的模型处理日常的海量任务,然后仅在遇到不清楚或复杂的情况时才升级到更大、更昂贵的系统。
Databricks 最近收购了 Quotient AI,帮助大型企业更可靠地运行 AI 代理。如今,AI 业务的竞争焦点在于运行完整的 AI 生命周期,包括用于跟踪错误的反馈系统,以及随着时间推移持续改进模型,使得评估和调优工具在部署之后愈发重要.
