在人工智能领域,底层架构的突破往往比上层应用的优化更具颠覆性。近日,中国AI公司月之暗面(Moonshot AI)发布的技术报告《Attention Residuals》(注意力残差)引发全球关注,其提出的创新架构在同等算力下可将模型性能提升25%,这项突破被OpenAI前核心成员Jerry Tworek誉为"深度学习2.0的开端"。
这项技术直指现代大模型的核心组件——残差连接(Residual Connections)。自2015年ResNet论文提出该设计以来,这种通过"直通道"传递原始输入的机制已成为深度学习的基石。但月之暗面团队发现,传统残差连接存在根本性缺陷:随着网络加深,各层贡献被稀释,导致大量中间层实质上处于"闲置"状态。研究显示,某些大模型中超过30%的层可直接移除而不影响性能。
创新的关键在于将注意力机制从横向的序列处理维度,旋转90度应用于纵向的深度维度。团队为每层引入可学习的"查询向量",使模型能动态决定参考哪些前序层的输出。这种设计仅增加约100行代码,却让480亿参数模型的验证损失显著下降。在博士级科学推理GPQA-Diamond基准测试中,新架构展现出7.5%的性能飞跃,数学和代码生成任务也有3%以上的提升。
工程实现上的突破同样值得关注。为解决全量注意力带来的内存爆炸问题,团队开发了Block AttnRes方案,将网络划分为多个模块,模块间采用稀疏注意力连接。通过跨阶段缓存机制和两阶段计算策略,训练开销控制在4%以内,推理延迟增加不超过2%。这种设计哲学在理论优雅性与工程实用性之间取得了平衡——当测试更激进的动态查询向量方案时,虽然性能进一步提升,但因会增加推理延迟而被放弃。
这项突破的意义远超技术本身。当行业普遍聚焦于数据规模和模型参数量时,月之暗面选择回归深度学习的基础设施进行重构。研究显示,新架构改变了模型对深度与宽度的资源分配偏好,使增加网络层数真正产生价值,而非简单的参数堆砌。这种方法论的转变,可能预示着深度学习进入新的发展阶段——当现有框架的优化空间逐渐耗尽,重新审视那些被视为"已解决问题"的基础组件,或许能打开新的性能天花板。














