根据 DeepSeek 的技术报告,4 月 30 日,该公司推出 Visual Primitives,这是一种将诸如点和边界框等基础视觉单元嵌入推理链的方法,以解决多模态任务中的 Reference Gap 问题。该方法通过 KV 缓存压缩来减少图像 token 的消耗。

在计数与空间推理基准测试中,该方法在选定维度上与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 的表现相当。DeepSeek 表示,它将开源基准测试和数据集的部分内容,模型权重将在完成集成后发布。