腾讯技术团队近期对DeepSeek开源的DeepEP通信框架实施了重大优化,此举显著提升了该框架在多种网络环境中的性能,为AI大模型训练带来了更加高效的解决方案。
经过测试验证,优化后的DeepEP在RoCE网络环境下实现了性能翻倍,而在IB(InfiniBand)网络环境下也提升了30%的性能。这一技术成就不仅获得了DeepSeek的公开感谢,还被高度评价为一次“巨大的加速”贡献。
腾讯星脉网络团队在DeepEP开源之后迅速行动,针对其存在的两大主要瓶颈——双端口网卡带宽利用率不足和CPU控制面交互时延,展开了深入研究。通过不懈努力,团队不仅成功克服了这些难题,还使得DeepEP在RoCE网络环境下性能实现翻倍,IB网络环境下的通信效率也得到了显著提升。
优化后的DeepEP技术方案已全面开源,并成功应用于腾讯混元大模型等项目的训练与推理过程中。在腾讯星脉与H20服务器构建的环境中,该方案展现出了卓越的通用性和稳定性,为AI大模型训练提供了坚实的基础。