2025年2月25日,DeepSeek在开源周第二天发布了首个用于混合专家模型(MoE)训练和推理的开源专家并行通信库DeepEP,该项目的核心亮点包括:
高效通信优化:DeepEP针对MoE模型的特性,优化了全对全(All-to-All)GPU通信核心,显著提升通信效率,尤其适配非对称带宽场景,同时支持NVLink和RDMA技术,兼顾节点内外的通信性能。
多场景适配:
提供高吞吐量内核,适用于训练和推理预填充阶段;
推理解码阶段则采用低延迟内核,并支持纯RDMA操作以进一步减少延迟。
灵活性与兼容性:
原生支持FP8低精度调度,降低计算资源消耗;
支持GPU资源动态控制,实现通信与计算的无缝重叠,避免资源闲置。
开源与生态价值:作为DeepSeek开源周的重要一环,DeepEP的发布旨在推动MoE技术标准化,降低开发门槛,加速行业创新。
DeepEP项目开源地址:https://github.com/deepseek-ai/DeepEP