据 Beating 称,Nvidia 于 6 月 4 日发布其旗舰大型语言模型 Nemotron 3 Ultra,包含 5500 亿总参数,其中 550 亿为激活参数。该模型在 Artificial Analysis 的智能指数上得分 48,使其成为表现最强的开源美国模型,仅次于得分 54 的 Kimi K2.6。

该模型采用混合 Mamba-Transformer MoE 架构,在 Mamba-2 状态空间层与 Transformer 注意力层之间交替,同时支持 100 万 token 的上下文窗口,并避免二次方 KV cache 增长。与同等规模的密集模型相比,混合架构在代理任务上实现了 5 倍更高的吞吐量和 30% 更低的推理成本。Nemotron 3 Ultra 可在 Hugging Face、NVIDIA NIM 和 OpenRouter 上使用。