Google 的 Vision Banana：统一视觉模型在分割与 3D 几何方面的表现优于任务特定模型

Gate 新闻消息，4月23日——Google 研究人员（包括何凯明和谢赛宁）发布了一篇论文，介绍 Vision Banana，这是一种通用型视觉理解模型，通过对该公司 Nano Banana Pro (Gemini 3 Pro Image) 图像生成模型进行轻量指令微调而创建。关键创新将所有视觉任务的输出统一为 RGB 图像，使得在不需要任务特定架构或损失函数的情况下，通过图像生成即可实现分割、深度估计和表面法线预测。

在语义分割方面，Vision Banana 在 Cityscapes 上比专门模型 SAM 3 高 4.7 个百分点；在指列表达式分割（referring expression segmentation）方面，它超过了 SAM 3 Agent。不过，在实例分割（instance segmentation）方面，它落后于 SAM 3。对于 3D 任务，度量深度估计在四个标准数据集上取得了 0.929 的平均准确率，超过 Depth Anything V3 的 0.918；推理时仅使用合成数据，无需真实深度信息或相机参数。表面法线估计在三个室内基准测试上达到了最先进的结果。

微调过程仅将少量视觉任务数据混入原始图像生成训练，从而保留了模型的生成能力——在生成质量测试中，其性能与原始 Nano Banana Pro 相当。论文提出，视觉中的图像生成预训练与语言中的文本生成预训练相类似：模型在生成过程中学习图像理解所需的内部表征，而指令微调只是释放这种能力。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

Google 的 Vision Banana：统一视觉模型在分割与 3D 几何方面的表现优于任务特定模型

相关阅读