上海讯,在金融科技的浪潮中,人工智能推理正逐步迈向新的高峰。近日,2025金融AI推理应用落地与发展论坛在上海盛大召开,吸引了众多业界精英与专家。会上,华为公司的一项创新技术引发了广泛关注——华为副总裁、数据存储产品线总裁周跃峰博士正式发布了UCM推理记忆数据管理器。
UCM是一款以KV Cache为核心的推理加速解决方案,集成了多种缓存加速算法,通过分级管理推理过程中产生的KV Cache数据,有效扩大了推理上下文窗口,实现了高吞吐、低时延的推理效果,显著降低了每Token的推理成本。这一创新技术的推出,标志着华为在金融AI推理领域迈出了重要一步。
在论坛演讲中,周跃峰博士指出:“AI时代,Token经济已成为衡量模型训练、推理效率与体验的重要标准。”他强调,为了保障流畅的推理体验,企业需不断加大算力投入,但如何在推理效率与成本之间找到最佳平衡,是当前行业面临的重要挑战。UCM推理记忆数据管理器正是为解决这一难题而生。
UCM由三大核心组件构成:推理引擎插件(Connector)、功能库(Accelerator)以及高性能KV Cache存取适配器(Adapter)。通过这三层协同,UCM实现了AI推理的“更优体验、更低成本”。具体来说,UCM利用层级化自适应的全局前缀缓存技术,避免了重复计算,使首Token时延最大降低了90%。同时,通过将超长序列Cache分层卸载至外置专业存储,UCM突破了模型和资源限制,实现了推理上下文窗口的10倍级扩展。
在成本方面,UCM的智能分级缓存能力可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动。UCM还融合了多种稀疏注意力算法,实现了存算深度协同,使长序列场景下的TPS提升了2-22倍,显著降低了每Token的推理成本。这一创新不仅为企业减轻了负担,还提高了效率。
华为已携手中国银联在金融典型场景中率先开展了UCM技术的试点应用。在中国银联的“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升了125倍,仅需10秒即可精准识别客户高频问题。这一成果不仅促进了服务质量的提升,还为未来“AI+金融”示范应用的推广奠定了坚实基础。
在论坛现场,华为还正式公布了UCM的开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。预计在今年9月,UCM将正式开源,并逐步贡献给业界主流推理引擎社区。这一举措将推动AI推理生态的繁荣发展,为全产业带来更多机遇与挑战。