在 8 张 NVIDIA H100 GPU 上的测试中,Lightning OPD 成功蒸馏出 Qwen3-30B-A3B-Base(一个 300 亿参数的 MoE 模型),并在 AIME 2024 基准测试中取得 71.0 分;而标准 OPD 在相同硬件上则会内存耗尽。对于较小的 Qwen3-8B 模型,该框架仅需 30 GPU 小时即可达到 69.9 分。

在 8 张 NVIDIA H100 GPU 上的测试中,Lightning OPD 成功蒸馏出 Qwen3-30B-A3B-Base(一个 300 亿参数的 MoE 模型),并在 AIME 2024 基准测试中取得 71.0 分;而标准 OPD 在相同硬件上则会内存耗尽。对于较小的 Qwen3-8B 模型,该框架仅需 30 GPU 小时即可达到 69.9 分。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.