该库包含六类内核:MoE (专家混合) 的门控与路由,包括 Top-k 专家选择、token 到专家的映射,以及带权重归一化的融合 expand/shrink;量化支持 FP8、FP4 和 E5M6 格式,提供按 token、按块和按通道的量化,并包含融合的 SwiGLU+量化操作;批量转置;Engram 门控,融合 RMSNorm 的前向/反向传播与权重梯度归约;Manifold HyperConnection,使用 Sinkhorn 归一化并进行混合的 split/apply;以及将底层内核封装为可训练层的高级 autograd 接口。
Engram 和 Manifold HyperConnection 是 DeepSeek 模型架构的专有组件,其实现细节首次向公众披露。该库需要 NVIDIA SM90 或 SM100 架构的 GPU (H100/H200 或 Blackwell 系列),CUDA Toolkit 13.1 或更高版本,以及 PyTorch 2.10 或更高版本。
