DeepSeek 于 4 月 30 日推出视觉基础原语方法，以增强多模态推理

根据 DeepSeek 的技术报告，4 月 30 日，该公司推出 Visual Primitives，这是一种将诸如点和边界框等基础视觉单元嵌入推理链的方法，以解决多模态任务中的 Reference Gap 问题。该方法通过 KV 缓存压缩来减少图像 token 的消耗。

在计数与空间推理基准测试中，该方法在选定维度上与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 的表现相当。DeepSeek 表示，它将开源基准测试和数据集的部分内容，模型权重将在完成集成后发布。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！