在单块 NVIDIA H100 GPU 上,DiffusionGemma 的吞吐量超过每秒 1000 tokens,而消费级 RTX 5090 则超过每秒 700 tokens。经过 4-bit 浮点量化后,该模型所需显存低于 18GB。DiffusionGemma 权重现已在 Hugging Face 开源,并得到 MLX、vLLM、Unsloth 以及 NVIDIA NeMo 的支持。

在单块 NVIDIA H100 GPU 上,DiffusionGemma 的吞吐量超过每秒 1000 tokens,而消费级 RTX 5090 则超过每秒 700 tokens。经过 4-bit 浮点量化后,该模型所需显存低于 18GB。DiffusionGemma 权重现已在 Hugging Face 开源,并得到 MLX、vLLM、Unsloth 以及 NVIDIA NeMo 的支持。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.