国产AI算力新突破:国家超算互联网核心节点三套万卡集群同步上线

   时间:2026-02-06 19:11 来源:快讯作者:刘敏

在AI算力竞争愈发激烈的全球背景下,国内AI算力建设迎来重要里程碑——由中科曙光研发的3套scaleX万卡超集群系统,正式在国家超算互联网核心节点投入试运行。这一突破标志着我国成为全球首个实现超3万张AI加速卡规模化部署并进入实际运营阶段的国家,国产AI算力池规模跃居世界前列。

此次上线的万卡集群并非孤立存在,而是作为国家超算互联网的"动力心脏",承担着连接全国算力资源的关键角色。该平台已整合30余家超算与智算中心,形成覆盖材料科学、生命科学、工业仿真等领域的算力网络,服务用户超百万,日均处理作业量突破百万次。三套万卡集群的同步部署,创造了从设备交付到全系统调通仅用不到两个月的工程奇迹,展现了我国在超大规模智能计算系统集成领域的领先能力。

技术层面,scaleX万卡集群突破了三大核心难题。在通信架构上,采用自主研发的scaleFabric高速互联网络,基于400G类InfiniBand原生RDMA技术,实现端到端延迟低于1微秒、带宽达400Gb/s的性能指标,较传统方案提升200%通信效率的同时降低30%成本。该架构设计预留了向十万卡规模扩展的接口,为未来算力升级奠定基础。

针对高密度算力部署的物理挑战,系统创新采用浸没相变液冷与超高密度刀片架构,使单机柜算力密度提升20倍,能源利用效率(PUE)降至1.04的行业新低。这意味着在同等机房空间内,可部署的AI算力规模提升一个数量级,同时将运营能耗控制在可持续范围,解决了万卡集群长期稳定运行的关键瓶颈。

在运维管理方面,系统构建了"数字孪生+智能调度"的立体化管控体系。通过物理集群的数字化映射,实现故障定位精度达芯片级、资源状态实时可视;智能调度引擎可同时管理万级节点、服务十万级用户,支持每秒万级作业调度,系统可用性达到99.99%。这种将硬件资源转化为标准化算力服务的能力,使万卡集群真正融入国家算力基础设施体系。

值得关注的是,该平台采用开放架构设计,支持多品牌AI加速卡混合部署,全面兼容CUDA等主流生态,已完成400余个主流大模型的适配优化。这种"软硬解耦"的设计理念,既降低了用户迁移成本,也为国产算力生态的协同发展开辟了新路径。目前,平台已支撑起万亿参数大模型训练、高通量推理等前沿应用,在科研领域助力材料发现周期缩短70%,在产业侧为互联网企业提供普惠算力服务。

全球AI算力竞赛正从硬件堆砌转向体系化运营阶段。此次国家超算互联网核心节点的上线,不仅展示了我国在超大规模智能计算领域的工程实力,更通过标准化算力服务模式的创新,为全球AI基础设施建设提供了中国方案。随着更多国产万卡集群接入国家算力网络,一个覆盖研发、训练、推理的全链条AI算力生态正在加速形成。

 
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报