4月23日——DeepSeek 已在 MIT 许可下开源了 TileKernels,这是一款使用 TileLang 编写的 GPU 内核库,面向大型语言模型的训练与推理。TileLang 是 tile-ai 团队开发的领域专用语言,用于在 Python 中表达高性能 GPU 内核。DeepSeek 表示,该库中的大多数内核已接近在计算密度与内存带宽方面的硬件性能上限,其中部分内容已部署到内部的训练与推理操作中。

该库包含六类内核:MoE (专家混合) 的门控与路由,包括 Top-k 专家选择、token 到专家的映射,以及带权重归一化的融合 expand/shrink;量化支持 FP8、FP4 和 E5M6 格式,提供按 token、按块和按通道的量化,并包含融合的 SwiGLU+量化操作;批量转置;Engram 门控,融合 RMSNorm 的前向/反向传播与权重梯度归约;Manifold HyperConnection,使用 Sinkhorn 归一化并进行混合的 split/apply;以及将底层内核封装为可训练层的高级 autograd 接口。

Engram 和 Manifold HyperConnection 是 DeepSeek 模型架构的专有组件,其实现细节首次向公众披露。该库需要 NVIDIA SM90 或 SM100 架构的 GPU (H100/H200 或 Blackwell 系列),CUDA Toolkit 13.1 或更高版本,以及 PyTorch 2.10 或更高版本。