为优化 DeepSeek-V4 的新颖架构,寒武纪借助其高性能 Torch-MLU-Ops 算子库,对包括 Compressor 和 mHC 在内的模块进行专门的加速。公司还使用 BangC 编程语言,为诸如稀疏/压缩 Attention 和 GroupGemm 等关键算子开发了高度优化的内核,从而充分利用了硬件底层能力。此前两家公司在软件与硬件协同优化方面的努力,已取得了行业领先的计算利用率。
DeepSeek-V4 于今日发布并开源,具备百万令牌级的扩展上下文窗口,强大的 Agent 能力,以及出色的推理性能。寒武纪表示,DeepSeek-V4 在寒武纪芯片上实现原生运行,代表了中国 AI 产业的重大里程碑。
