据 Beating 称,NVIDIA 已发布 Cosmos-Reason2-32B 的权重,这是其物理 AI 推理视觉语言模型(VLM)的旗舰版本,旨在帮助机器人和自动驾驶系统理解空间、时间和物理原理。该 320 亿参数模型基于 Qwen3-VL-32B-Instruct 构建,现已在 NVIDIA Open Model License 下提供商业使用。

该模型能够分析视频流以评估行车安全,在图像中以 2D/3D 坐标检测目标,并可作为人形机器人和自动驾驶车辆的规划引擎。与上一代相比,Cosmos-Reason2 新增了具有精确时间定位的目标检测,并将上下文窗口扩展至 256K tokens。