阿里未来生活实验室新突破:专家分化学习让MoE模型专家“各显神通”

   时间:2026-03-01 03:00 来源:快讯作者:周伟

在大模型技术飞速发展的当下,混合专家模型(MoE)已成为众多顶尖模型的核心架构。从备受瞩目的GPT - 5到性能卓越的DeepSeek - V3,MoE的身影无处不在。然而,一个关键问题逐渐浮现:模型中的众多“专家”是否都在有效发挥各自的专业能力,还是存在大量重复工作?

在MoE预训练过程中,原本期望不同专家能“各司其职”,但实际情况却是专家们出现了“同质化”现象,即不同专家处理任务的方式和结果趋于一致。这一现象被学术界称为“专家同质化”,它直接导致MoE模型参数利用不充分,限制了模型的扩展能力。阿里巴巴研究团队深入探究后发现,MoE预训练过程中的信息缺失是造成这一问题的根源。

为解决这一难题,阿里巴巴研究团队提出了一种创新的专家分化学习策略。该策略巧妙利用预训练数据中天然存在的“领域标签”,设计出全新的辅助损失函数。此函数通过鼓励不同领域的Token在路由统计信息上呈现差异,引导专家发展出真正的专业能力,从而有效避免专家同质化。

传统MoE训练中,负载均衡损失虽能提高总的路由多样性,但存在明显缺陷。它只关注所有专家是否都被使用,而不考虑具体使用情况,如同公司发奖金只看重员工是否忙碌,而不关注工作是否重复。这种“盲目”的提升方式,使得模型倾向于通过增加域内多样性来应付,而非增加域间多样性,导致专家无法真正分化。

阿里巴巴团队提出的专家分化学习策略,核心在于一种名为专家分化损失(LED)的训练目标函数。其设计基于一个关键的数学原理——多样性分解定理,即总多样性等于域间多样性加上域内多样性。LED的目标是精准锁定并最大化域间多样性,通过最大化不同领域之间的“排斥力”,将总多样性的额度分配给“域间差异”,迫使专家实现功能分化。

为验证分化学习的效果,研究团队构建了两种不同粒度的领域标签体系进行实验。一种是粗粒度的3 - Class体系,简单分为英文、中文、数学;另一种是细粒度的49 - Class体系,利用分类器将数据细分为49个具体主题,如物理、历史、计算机科学等。实验结果显示,使用49类细粒度标签训练的模型性能显著优于使用3类标签的模型,表明给专家的分工指令越具体,MoE模型涌现出的专业能力越强。

在3B、8B、15B三种规模的模型上,研究团队进行了长达100B Tokens的从零预训练。在预训练阶段最重要的训练损失对比中,专家分化学习在语言建模损失上展现出稳定且显著的训练收益。在MMLU、C - eval、CMMLU、ARC等7个主流基准测试中,搭载专家分化学习的模型全面超越标准MoE基线。特别是在15B模型上,细粒度策略带来的平均分提升超过1个百分点,这在预训练领域通常意味着数百亿Token的训练差距。

为直观展示专家分化效果,研究团队绘制了三角单纯形图。图中三角形三个顶点分别代表“数学”“中文”“英文”三个纯粹领域。左图(基线模型)中,所有点都集中在三角形中间,说明无论输入何种领域,激活的专家都差不多,专家为“通用工”;右图(采用专家分化学习的模型)中,点明显向三角形顶点发散,紧贴边缘,证明处理不同领域的专家已完全分化,实现了真正的专精特新。

值得一提的是,LED计算十分轻量级,仅涉及Router输出的低维向量运算。实验数据显示,相比标准MoE,新方法的训练吞吐量几乎没有下降,且额外推理成本为零。这一成果表明,通过重新思考MoE中“专家”的定义,利用数据中的“领域结构”作为监督信号,能有效挖掘MoE潜力,为预训练技术发展提供了新思路。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报 鲁公网安备37010202700497号