上海近日迎来了2025金融AI推理应用落地与发展论坛的盛大召开。此次论坛汇聚了众多行业精英,其中包括中国银联执行副总裁涂晓军与华为数字金融军团CEO曹冲,两位重量级嘉宾发表了精彩致辞。
论坛期间,华为公司的一位重量级人物——副总裁兼数据存储产品线总裁周跃峰博士,带来了一个引人注目的技术发布:UCM推理记忆数据管理器。这一创新技术旨在推动AI推理体验的全面升级,同时提升推理性价比,为AI商业的正向循环加速。
据周跃峰博士介绍,随着人工智能进入深水区,AI推理已成为业界关注的焦点。推理效率和推理体验已成为衡量AI模型价值的关键指标。他强调,AI时代,Token数已成为衡量模型训练、推理效率和体验的重要标准,标志着“Token经济”的到来。然而,如何在保障推理体验的同时,有效控制推理成本,成为行业亟待解决的核心问题。
为了解决这一难题,华为推出了UCM推理记忆数据管理器。该管理器由三大核心组件构成:推理引擎插件(Connector)、功能库(Accelerator)以及高性能存取适配器(Adapter)。通过这三层协同,UCM实现了AI推理在体验与成本上的双重优化。
在推理体验方面,UCM凭借其层级化自适应的全局前缀缓存技术,能够直接调用KV缓存数据,避免了重复计算,使得首Token时延降低了高达90%。同时,它还通过算法创新,将超长序列缓存分层卸载至外置专业存储,实现了推理上下文窗口的10倍级扩展,有效满足了长文本处理的需求。
在推理成本方面,UCM的智能分级缓存能力使其能够根据记忆热度在多种存储介质间实现数据的按需流动。它还融合了多种稀疏注意力算法,实现了存算的深度协同,使得长序列场景下的TPS提升了2至22倍,显著降低了每Token的推理成本。
华为与中国银联在联合创新技术试点中,充分验证了UCM的技术价值。在中国银联的“客户之声”业务场景下,借助UCM技术及工程化手段,大模型的推理速度提升了125倍,仅需10秒即可精准识别客户高频问题,极大地提升了服务质量。
论坛现场,华为还宣布了UCM的开源计划。UCM通过开放统一的接口,可适配多种推理引擎框架、算力及存储系统。预计在今年9月,UCM将正式开源,并逐步贡献给业界主流的推理引擎社区,旨在携手全产业共同推动AI推理生态的繁荣发展。