在上海,2025金融AI推理应用落地与发展论坛汇聚了行业精英,共同探索AI在金融领域的未来之路。论坛中,中国银联执行副总裁涂晓军与华为数字金融军团CEO曹冲发表了重要致辞,为活动拉开序幕。
华为公司副总裁、数据存储产品线总裁周跃峰博士在活动中发布了一项创新技术——UCM推理记忆数据管理器。这项技术旨在优化AI推理体验,提高推理性价比,推动AI在金融等行业的商业应用进入正循环。
周跃峰博士在演讲中指出,随着AI技术步入深水区,推理效率和体验已成为衡量AI模型价值的关键。在AI时代,Token数成为衡量模型训练、推理效率和体验的重要标准,Token经济正逐渐崛起。然而,如何在保障推理体验的同时,有效控制推理成本,成为行业面临的重要挑战。
为解决这一难题,华为推出了UCM推理记忆数据管理器。该技术由三大组件构成:推理引擎插件、功能库和存取适配器。通过这三层协同,UCM实现了AI推理在体验与成本上的双重优化。其中,层级化自适应的全局前缀缓存技术,使系统能够直接调用缓存数据,避免重复计算,从而显著降低首Token时延。
UCM还具备智能分级缓存能力,能够根据记忆热度在多种存储介质中实现数据按需流动。同时,它融合了多种稀疏注意力算法,实现了存算深度协同,使得长序列场景下的每秒处理token数(TPS)大幅提升,每Token推理成本显著降低。
在中国银联与华为的联合创新技术试点中,UCM的技术价值得到了充分验证。在中国银联的“客户之声”业务场景下,借助UCM技术,大模型推理速度提升了125倍,能够在极短时间内精准识别客户高频问题,有效提升了服务质量。
在论坛现场,华为还正式公布了UCM的开源计划。UCM通过开放统一的接口,可适配多种推理引擎框架、算力及存储系统。预计在今年9月,UCM将正式开源,并逐步贡献给业界主流推理引擎社区。这一举措将有助于推动AI推理生态的繁荣发展,为行业带来更多创新机遇。