4 月 16 日——Google 和波士顿动力宣布,将 Gemini Robotics 具身推理模型集成到 Spot 四足机器人中,使系统能够解读自然语言指令、识别物体,并在无人干预的情况下自主执行复杂任务。

此次合作在 2025 年内部黑客马拉松的实验性成果基础上展开。它使 Spot 能够处理视觉输入,并将高层级指令转化为协同的物理动作。与依赖僵化的逐步逻辑的传统机器人编程不同,该系统通过对话式提示,并通过一层中间软件将 Gemini 模型连接到 Spot 的 API。AI 可以从预定义的能力中进行选择,包括导航、目标检测、图像采集、抓取以及放置;借助实时反馈,它能够在无需人工干预的情况下实现自适应行为。

在演示中,该系统成功解读了用于整理物品的通用指令:它会分析视觉数据,并通过一系列动作指令引导机器人完成任务。该方案通过将 AI 能力限制在机器人 API 内预定义的边界内来维持运行安全,在适应性与可控性能之间实现平衡。该合作伙伴关系表明,通过减少手动编写代码,让工程师专注于定义目标而非编程每一个动作序列,开发者可能会获得潜在的效率提升。