该模型采用 DSA2 注意力机制,该机制结合了 DeepSeek 先前在 V3.2 中的 DSA (DeepSeek Sparse Attention) 以及 NSA (Native Sparse Attention)(并配备 512 维的头部嵌入),再配套使用稀疏多查询注意力 (MQA) 与滑动窗口注意力 (SWA)。MoE (Mixture of Experts) 层包含 384 位专家,每次前向传递激活 6 位,使用 Fused MoE Mega-Kernel。残差连接采用 Hyper-Connections 架构。
首次披露的训练细节包括:使用 Muon 优化器 (applying Newton-Schulz orthogonalization to momentum updates),32K token 的预训练上下文窗口,以及在强化学习期间使用 GRPO (Group Relative Policy Optimization) 并进行 KL 散度修正。最终上下文窗口扩展至 100 万(1 million)tokens。该模型为仅文本模型。
Zhang 并未受雇于 DeepSeek,公司也尚未对所披露信息作出官方评论。
