Perplexity 公开网页搜索代理的后训练方法；基于 Qwen3.5 的模型在准确率与成本上胜过 GPT-5.4

封面新闻讯息，4 月 23 日——Perplexity 的研究团队发布了一篇技术文章，详细介绍了其网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B)，并采用两阶段流水线：先进行监督微调 (SFT)，以建立指令遵循与语言一致性；随后进行在线强化学习 (RL)，以优化搜索准确性与工具使用效率。

强化学习阶段使用 GRPO 算法，并来自两类数据源：一是专有的多跳可验证问答数据集，由内部种子查询构建而来，这些查询需要 2–4 跳推理，并通过多求解器验证；二是基于评分规则的通用对话数据，将部署需求转换为可客观核查的原子条件，以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时，偏好分数才会被计入 (question-answer match 或所有评分规则标准均满足)，从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定：对工具调用与生成长度施加平滑惩罚，其基线为同一组中正确答案的基线水平。

评估表明，Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上，它使用单次工具调用达到 57.3% 的准确率，较 GPT-5.4 高 5.7 个百分点；较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (four tool calls) 下，它以每次查询 $0.02 实现 73.9% 的准确率；相比之下，GPT-5.4 为 67.8%（每次查询 $0.085），Sonnet 4.6 为 62.4%（每次查询 $0.153）。成本数据基于各提供方公开的 API 定价，并且不包括缓存优化。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

Perplexity 公开网页搜索代理的后训练方法；基于 Qwen3.5 的模型在准确率与成本上胜过 GPT-5.4

相关阅读