Google 开源 DiffusionGemma 模型：在 H100 上每秒 1000+ 个 Token，速度提升 4 倍

据 Beating 监测，Google 发布了一个名为 DiffusionGemma 的开源文本生成模型，它使用基于扩散的机制，通过并行块来生成文本，而不是以逐 token 的方式顺序生成。该 26B 参数模型在混合专家架构下，每次前向传递只激活 38 亿参数，实现了本地 GPU 推理 4 倍的速度提升。

在单块 NVIDIA H100 GPU 上，DiffusionGemma 的吞吐量超过每秒 1000 tokens，而消费级 RTX 5090 则超过每秒 700 tokens。经过 4-bit 浮点量化后，该模型所需显存低于 18GB。DiffusionGemma 权重现已在 Hugging Face 开源，并得到 MLX、vLLM、Unsloth 以及 NVIDIA NeMo 的支持。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

Google 开源 DiffusionGemma 模型：在 H100 上每秒 1000+ 个 Token，速度提升 4 倍

相关阅读