腾讯云在近日举办的AI产业应用峰会上,宣布了其云智算平台的全新升级策略。此次升级旨在应对AI应用和模型快速发展对基础设施带来的新挑战,从效能、可靠性和易用性三大方面进行全面强化,为AI大模型训练、智能体部署等关键场景提供更加坚实的基础设施支撑。
腾讯云副总裁李力指出,从云计算时代迈入AI时代,云基础设施的技术演进始终紧密围绕实际应用场景展开。随着大模型技术的迅猛发展和智能体、智能驾驶等领域的广泛应用,腾讯云智算以AI原生理念为核心,致力于构建安全、灵活且高性能的基础设施底座,与开发者及企业携手探索智能化转型的新路径。
在效能提升方面,腾讯云智算针对数据处理效率低下和资源利用率不高等问题,推出了多项技术创新。依托国内首个支持跨卡型GPU调度的Serverless平台,腾讯云智算能够处理高达10万级的并发数据任务,请求处理能力达到行业领先的百万量级。通过腾讯云存储数据万象提供的100多个数据处理任务模板,企业数据打标效率得以提升50%。
在大模型训练和推理场景中,腾讯云智算基于自研的星脉通讯库,实现了双端口网卡带宽利用率的峰值提升,相比DeepEP性能再增30%。同时,腾讯云智算推出了性价比更高的多机互联网络vRDMA,损耗比降低至不到2%,使得模型训练效率接近无损扩展。
某知名车企在应用腾讯云智算平台后,智驾模型的数据标注效率提高了50%,数据处理整体成本降低了70%,训练性能提升了30%,模型迭代周期缩短了40%。
在可靠性方面,针对AI基础设施常见的服务不稳定、扩容速度慢和访问速度慢等问题,腾讯云智算通过自研AI服务器和智能巡检系统,成功将千卡集群的日均故障率控制在0.16%以下。借助腾讯云存储GooseFS,模型分发时间从1小时缩短至20分钟。同时,腾讯云在全球拥有50多个可用区,使得AI应用服务能够就近接入,服务稳定性提升了57%,扩容速度提升了2倍。
某头部手机厂商在采用腾讯云智算方案后,服务网络丢包和抖动均下降了99%,服务稳定性提升了57%,同时实现了200%的扩容速度提升。
在易用性方面,为了加速智能体的规模化落地,腾讯云智算对AI原生工具链进行了全面升级。其中,向量数据库全面支持向量与关键字混合检索,最高可处理千亿级数据并实现500万QPS的高并发检索。腾讯云智能日志服务支持统一日志上报与可观测大盘,具备完整链路追踪和异常3分钟定位能力。腾讯云智算还推出了覆盖大模型全生命周期的安全解决方案,能够在两小时内快速响应安全事件。
某头部房产中介平台在搜索业务中借助腾讯云向量数据库,数据召回率增加了30%,检索时间降低了50%。同时,依靠日志和安全能力,异常定位效率提升了30%,安全响应时间缩短了90%。
目前,腾讯云智算已在智能体及AI应用、具身智能、自动驾驶、互联网应用等多个领域实现深度应用。在Gartner最新发布的生成式AI基础设施象限报告中,腾讯云智算的产品性能与未来潜力均位列亚太厂商之首。
腾讯云对DeepSeek开源的DeepEP通信框架进行了深度优化,使其在各种网络环境下均表现出显著的性能提升。这一技术贡献也获得了DeepSeek的公开致谢,称赞其为一次“巨大的加速”。