在华为开发者大会2025的热烈氛围中,一场聚焦“CloudMatrix384昇腾AI云服务:算力聚变,加速行业AI革新”的高峰论坛成功举办。此次论坛汇聚了四位AI领域的领航者及近200名开发者,围绕技术核心与实际应用,深入探讨CloudMatrix384超节点驱动的昇腾AI云服务如何破解AI算力、运力、存力的瓶颈问题,引领行业智能化转型的新篇章。
随着AI大模型的迅猛发展,模型参数量已突破千亿乃至万亿级别,传统算力架构面临的“算力墙”、“通信墙”、“存储墙”问题日益凸显,成为制约行业创新的关键障碍。华为云公有云解决方案部CTO刘赫伟在论坛上强调,大模型的爆炸式增长,实质上是对算力、运力、存力的全方位挑战,而基于CloudMatrix384超节点的昇腾AI云服务,正成为突破这些瓶颈的新标杆,重塑AI基础设施的标准。
CloudMatrix384昇腾AI云服务通过“硬件重构+软件智能”的深度融合,构建了高密度、高速度、高效率的AI-Native基础设施。具体而言,它创新性地将384颗昇腾NPU与192颗鲲鹏CPU通过MatrixLink高速网络实现全对等互联,形成单节点的“超级AI服务器”,并支持432个超节点级联,构建起包含最高16万颗AI加速卡的超大集群,为大模型训练提供了近乎无限的算力资源。
在通信方面,CloudMatrix384的核心网络架构MatrixLink凭借亲和性调度、协议重构等技术突破,实现了卡间带宽高达2.8Tb/s、节点内通信时延降至纳秒级、节点间网络时延仅微秒级的卓越性能。结合PB级虚拟显存、跨节点/集群DRAM池等创新设计,进一步提升了数据传输效率和算力协同效果。
在效率方面,CloudMatrix384昇腾AI云服务结合强大的底层算力、网络、存力,以及上层的专家任务智能调度能力,实现了“一卡一专家、一卡一算子任务”的灵活分配和并行推理,将算力有效使用率(MFU)提升50%以上。同时,结合昇腾云脑的全栈故障感知、诊断与快速自动恢复功能,彻底解决了传统集群在训练和推理过程中的难题。
华为半导体业务部战略与业务发展总监夏砚秋指出,CloudMatrix384昇腾AI云服务将算力、网络、存储等硬件优势与P/D分离、专家调度、算子优化等软件能力深度结合,使得千亿参数MOE模型的训练和推理性能得到了显著提升。以DeepSeek V3/R1为例,在保持较低时延的同时,实现了2000 TPS以上的吞吐量,综合性能遥遥领先。
在行业实践方面,CloudMatrix384昇腾AI云服务的技术优势已在多个领域得到验证。硅基流动作为国内领先的大模型MaaS服务商,早在5月就在CloudMatrix384上部署了DeepSeek-R1,通过多专家负载均衡和极致通信优化,实现了更高的吞吐量。华为终端智能的核心入口小艺,也借助CloudMatrix384的超大算力、带宽和专家并行部署规模,实现了推理吞吐与时延的极致优化,提升了用户交互体验。
新浪、中科院、面壁智能、科大讯飞等企业也基于CloudMatrix384昇腾AI云服务,在智慧小浪推理交付、AI4S科研大模型构建、小钢炮模型推理业务性能提升、讯飞星火大模型推理性能优化等方面取得了显著成果。360打造的“超级搜索”纳米A搜索,也对AI算力提出了极高需求,并已开启对CloudMatrix384超节点的测试。
CloudMatrix384昇腾AI云服务正逐步融入电商、社交、文娱、金融、汽车等多个行业的智能化场景,降低了AI创新的门槛,扩大了AI创新的成效。此次高峰论坛不仅展示了最新的技术成果,更搭建了一个“技术-场景-生态”的深度交流平台,标志着AI基础设施正式迈入“超节点时代”。华为云正以开放的姿态,携手客户与合作伙伴,共同书写行业智能化的新篇章。