该模型采用混合 Mamba-Transformer MoE 架构,在 Mamba-2 状态空间层与 Transformer 注意力层之间交替,同时支持 100 万 token 的上下文窗口,并避免二次方 KV cache 增长。与同等规模的密集模型相比,混合架构在代理任务上实现了 5 倍更高的吞吐量和 30% 更低的推理成本。Nemotron 3 Ultra 可在 Hugging Face、NVIDIA NIM 和 OpenRouter 上使用。

该模型采用混合 Mamba-Transformer MoE 架构,在 Mamba-2 状态空间层与 Transformer 注意力层之间交替,同时支持 100 万 token 的上下文窗口,并避免二次方 KV cache 增长。与同等规模的密集模型相比,混合架构在代理任务上实现了 5 倍更高的吞吐量和 30% 更低的推理成本。Nemotron 3 Ultra 可在 Hugging Face、NVIDIA NIM 和 OpenRouter 上使用。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.