时事快闻

阿里未来生活实验室新突破：专家分化学习让MoE模型专家“各显神通”

时间：2026-03-01 03:00 来源：快讯作者：周伟

在大模型技术飞速发展的当下，混合专家模型（MoE）已成为众多顶尖模型的核心架构。从备受瞩目的GPT - 5到性能卓越的DeepSeek - V3，MoE的身影无处不在。然而，一个关键问题逐渐浮现：模型中的众多“专家”是否都在有效发挥各自的专业能力，还是存在大量重复工作？

在MoE预训练过程中，原本期望不同专家能“各司其职”，但实际情况却是专家们出现了“同质化”现象，即不同专家处理任务的方式和结果趋于一致。这一现象被学术界称为“专家同质化”，它直接导致MoE模型参数利用不充分，限制了模型的扩展能力。阿里巴巴研究团队深入探究后发现，MoE预训练过程中的信息缺失是造成这一问题的根源。

为解决这一难题，阿里巴巴研究团队提出了一种创新的专家分化学习策略。该策略巧妙利用预训练数据中天然存在的“领域标签”，设计出全新的辅助损失函数。此函数通过鼓励不同领域的Token在路由统计信息上呈现差异，引导专家发展出真正的专业能力，从而有效避免专家同质化。

传统MoE训练中，负载均衡损失虽能提高总的路由多样性，但存在明显缺陷。它只关注所有专家是否都被使用，而不考虑具体使用情况，如同公司发奖金只看重员工是否忙碌，而不关注工作是否重复。这种“盲目”的提升方式，使得模型倾向于通过增加域内多样性来应付，而非增加域间多样性，导致专家无法真正分化。

阿里巴巴团队提出的专家分化学习策略，核心在于一种名为专家分化损失（LED）的训练目标函数。其设计基于一个关键的数学原理——多样性分解定理，即总多样性等于域间多样性加上域内多样性。LED的目标是精准锁定并最大化域间多样性，通过最大化不同领域之间的“排斥力”，将总多样性的额度分配给“域间差异”，迫使专家实现功能分化。

为验证分化学习的效果，研究团队构建了两种不同粒度的领域标签体系进行实验。一种是粗粒度的3 - Class体系，简单分为英文、中文、数学；另一种是细粒度的49 - Class体系，利用分类器将数据细分为49个具体主题，如物理、历史、计算机科学等。实验结果显示，使用49类细粒度标签训练的模型性能显著优于使用3类标签的模型，表明给专家的分工指令越具体，MoE模型涌现出的专业能力越强。

在3B、8B、15B三种规模的模型上，研究团队进行了长达100B Tokens的从零预训练。在预训练阶段最重要的训练损失对比中，专家分化学习在语言建模损失上展现出稳定且显著的训练收益。在MMLU、C - eval、CMMLU、ARC等7个主流基准测试中，搭载专家分化学习的模型全面超越标准MoE基线。特别是在15B模型上，细粒度策略带来的平均分提升超过1个百分点，这在预训练领域通常意味着数百亿Token的训练差距。

为直观展示专家分化效果，研究团队绘制了三角单纯形图。图中三角形三个顶点分别代表“数学”“中文”“英文”三个纯粹领域。左图（基线模型）中，所有点都集中在三角形中间，说明无论输入何种领域，激活的专家都差不多，专家为“通用工”；右图（采用专家分化学习的模型）中，点明显向三角形顶点发散，紧贴边缘，证明处理不同领域的专家已完全分化，实现了真正的专精特新。

值得一提的是，LED计算十分轻量级，仅涉及Router输出的低维向量运算。实验数据显示，相比标准MoE，新方法的训练吞吐量几乎没有下降，且额外推理成本为零。这一成果表明，通过重新思考MoE中“专家”的定义，利用数据中的“领域结构”作为监督信号，能有效挖掘MoE潜力，为预训练技术发展提供了新思路。

更多>同类天脉资讯

泰丰智能IPO启航：王振华一家三口控股近六成 40岁儿子王然掌舵总经理

04-07

冠能X7-AI机器人亮相江津开启配网带电作业智能化新篇章

近日，国网重庆江津供电公司在江津区10千伏先龙线毛家村六B台区，成功应用冠能X7-AI带电接火机器人开展带电引流线接火作业。下一步，国网重庆江津供电公司将持续聚焦电网运维智能化升级，加大新技术研发与应用力度…

04-07

中国团队攻克难题：竹制无人机配新型开源飞控系统，推动环保应用新发展

该项目的高级工程师田伟解释说，通过将飞行控制软件和结构参数设置全部开源，用户无需重写核心控制算法即可针对不同的竹制机身进行系统适配，从而使该技术具有高度的灵活性，适用于多种可持续无人机设计。研究人员表示，…

04-07

天阳科技3000万入局量子计算：借前沿算力东风，开拓金融科技新增长版图

在数字经济与新质生产力加速推进的背景下，天阳科技的布局标志着公司在金融科技与前沿算力融合领域迈出关键一步，为企业拓展新增长空间奠定坚实基础。业内人士认为，借助此次投资，天阳科技有望增强在金融市场领域的竞争…