据 Beating 称,华为、清华大学科学技术大学(USTC)和北京大学的研究人员发布了 HyperParallel-MoE,这是一种面向 Ascend A3 芯片的编译器调度框架。该框架通过 36% 降低 MoE 专家计算模块的延迟,并在 256 节点集群中运行 671B 参数的 DeepSeek 风格模型时,实现整体数据处理速度提升 58%(快 1.49–1.58 倍);同时,单步训练速度提升 8–9%。