上海讯,近日,金融AI推理领域迎来了一场重要盛会——2025金融AI推理应用落地与发展论坛。此次论坛汇聚了众多行业精英,共同探讨AI推理技术的最新进展和未来趋势。其中,华为公司的一项创新技术尤为引人注目。
论坛上,华为副总裁、数据存储产品线总裁周跃峰博士隆重发布了AI推理领域的全新解决方案——UCM推理记忆数据管理器。这款以KV Cache为核心的推理加速套件,集成了多种缓存加速算法,旨在通过分级管理推理过程中的记忆数据,实现高效、低延迟的推理体验,并显著降低推理成本。
据周跃峰介绍,在AI时代,模型训练和推理的效率与体验已成为衡量技术发展的重要指标,而Token数则成为这一量化的关键。然而,如何在提升推理效率的同时控制成本,是当前行业面临的一大挑战。为此,华为精心打造了UCM推理记忆数据管理器,旨在为企业找到推理效率与成本之间的最佳平衡点。
UCM推理记忆数据管理器由三大核心组件构成:推理引擎插件(Connector)、功能库(Accelerator)和高性能存取适配器(Adapter)。这三者协同工作,通过推理框架、算力和存储的三层优化,实现了AI推理的“更优体验、更低成本”。具体来说,UCM利用层级化自适应的全局前缀缓存技术,避免了重复计算,显著降低了首Token时延。同时,通过将超长序列Cache分层卸载至外置专业存储,UCM突破了模型和资源限制,实现了推理上下文窗口的大幅扩展。
在降低成本方面,UCM展现了其智能分级缓存的强大能力。它能够根据记忆热度在HBM、DRAM、SSD等存储介质中实现数据的按需流动。UCM还融合了多种稀疏注意力算法,实现了存算深度协同,使长序列场景下的TPS(每秒处理token数)得到大幅提升,从而显著降低了每Token推理成本。
华为与中国银联的联合创新技术试点项目进一步验证了UCM的技术价值。在中国银联的“客户之声”业务场景下,UCM技术的应用使得大模型推理速度提升了125倍,能够在极短的时间内精准识别客户高频问题,有效提升了服务质量。这一成果不仅展示了UCM技术的强大实力,也为未来“AI+金融”示范应用的推广奠定了坚实基础。
论坛现场,华为还正式公布了UCM的开源计划。通过开放统一的南北向接口,UCM可适配多种推理引擎框架、算力及存储系统。预计在今年9月,UCM将正式开源,并逐步贡献给业界主流推理引擎社区。这一举措无疑将推动AI推理生态的繁荣发展,为行业带来更多创新机遇。