谷歌研究发布 ReasoningBank：AI 智能体从成功与失败中学习推理策略

Gate 新闻消息，4月22日——谷歌研究发布了 ReasoningBank，这是一个智能体记忆框架，使基于大型语言模型的智能体能够在部署后持续学习。该框架从成功和失败的任务经验中提取通用推理策略，并将其存储在记忆库中，以便在未来相似任务中检索与执行。相关论文发表于 ICLR，代码已在 GitHub 上开源。

ReasoningBank 在两种现有方法的基础上进行了改进：Synapse 会记录完整的行动轨迹，但由于粒度较细，迁移能力有限；Agent Workflow Memory 只从成功案例中学习。ReasoningBank 做出了两项关键改变：存储“推理模式”而不是“行动序列”，并且每条记忆包含用于标题、描述和内容的结构化字段；将失败轨迹纳入学习。该框架使用一个模型对执行轨迹进行自我评估，将失败经验转化为反陷阱规则。例如，规则“看到就点击‘加载更多’按钮”会演化为“先验证当前页面标识符，避免陷入无限滚动循环，然后点击加载更多”。

论文还提出了 Memory-aware Test-time Scaling (MaTTS)，它会在推理期间分配额外计算，用于探索多条轨迹并将发现存储到记忆库中。并行扩展会为同一任务运行多个不同的轨迹，通过自我对比来进一步完善更稳健的策略；串行扩展则会对单条轨迹进行迭代细化，并将中间推理存入记忆。

在使用 Gemini 2.5 Flash 作为 ReAct 智能体的 WebArena 浏览任务以及 SWE-Bench-Verified 编码任务中，ReasoningBank 相比没有记忆的基线，在 WebArena 上成功率提高了 8.3%，在 SWE-Bench-Verified 上提高了 4.6%，同时将每个任务的平均步骤数减少了约 3。将 MaTTS 与并行扩展结合（(k=5)）后，WebArena 的成功率还进一步提升了 3 个百分点，并且步骤数额外减少了 0.4。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

谷歌研究发布 ReasoningBank：AI 智能体从成功与失败中学习推理策略

相关阅读