在混合专家(MoE)模型的推理过程中,专家调用频率的不均衡性,即“冷热专家”现象,导致负载分布显著不均,严重影响系统推理性能。这一问题源于部分专家(热专家)被高频调用,而其他专家(冷专家)使用率极低,调用频率差距可达一个数量级以上。具体而言,该问题表现为以下几个方面:
负载不均:部分专家(热专家)被频繁调用,而其他专家(冷专家)使用率较低,频率差距达到一个数量级以上。

推理延迟增加:负载不均衡导致慢速计算节点成为推理瓶颈,延长整体推理时间。
吞吐量受限:资源利用率不足,限制系统性能。
针对上述问题,华为团队提出了一种高效的负载均衡策略OmniPlacement,通过专家重排、层间冗余部署和近实时动态调度,显著提升MoE模型的推理性能。
页码:上一页