特斯拉首席执行官埃隆·马斯克近日在社交平台转发了一项来自中国AI公司的研究成果,并评价称“这项作品令人印象深刻”。被关注的正是Kimi团队提出的全新注意力残差机制,这项突破性技术正在深度学习领域引发广泛讨论。
传统深度学习模型中,残差连接作为关键技术已沿用近十年。这种通过固定等权累加传递信息的方式,在模型层数增加时容易引发浅层信息稀释、训练效率下降等问题。Kimi团队此次提出的注意力残差机制,创造性地将Transformer架构中的注意力机制迁移至模型深度维度,使每层网络能够动态筛选有效信息并抑制冗余数据。
为解决内存消耗难题,研究团队设计了分块处理策略。在模型内部划分计算单元后,单元内保留传统累加方式确保稳定性,单元间则采用动态权重分配。这种设计使推理延迟增加控制在2%以内,成功平衡了模型性能与计算效率。实测数据显示,480亿参数规模的模型训练效率提升25%,科学推理和数学解题能力分别提高7.5%和3.6%。
这项成果获得国际学界高度关注。前OpenAI研究副总裁Jerry Tworek公开表示,该技术标志着深度学习进入新发展阶段。值得注意的是,马斯克旗下人工智能公司xAI目前正处于重组关键期,此时对这项中国技术的公开认可,侧面印证了其技术突破的分量。
面对国际科技界的关注,Kimi官方账号以轻松语气回应马斯克的点赞:“你的火箭造得也不错!”这种互动折射出全球人工智能领域日益频繁的技术交流态势。随着注意力残差机制逐步通过开源社区传播,这项源自中国的创新正在为全球AI发展提供新的解决方案。















