华为UCM技术革新AI推理:成本大降,上下文窗口扩展10倍,吞吐量最高提22倍

   时间:2025-08-13 09:27 来源:天脉网作者:杨凌霄

在上海,2025金融AI推理应用落地与发展论坛汇聚了行业精英,共同探索AI在金融领域的未来之路。论坛中,中国银联执行副总裁涂晓军与华为数字金融军团CEO曹冲发表了重要致辞,为活动拉开序幕。

华为公司副总裁、数据存储产品线总裁周跃峰博士在活动中发布了一项创新技术——UCM推理记忆数据管理器。这项技术旨在优化AI推理体验,提高推理性价比,推动AI在金融等行业的商业应用进入正循环。

周跃峰博士在演讲中指出,随着AI技术步入深水区,推理效率和体验已成为衡量AI模型价值的关键。在AI时代,Token数成为衡量模型训练、推理效率和体验的重要标准,Token经济正逐渐崛起。然而,如何在保障推理体验的同时,有效控制推理成本,成为行业面临的重要挑战。

为解决这一难题,华为推出了UCM推理记忆数据管理器。该技术由三大组件构成:推理引擎插件、功能库和存取适配器。通过这三层协同,UCM实现了AI推理在体验与成本上的双重优化。其中,层级化自适应的全局前缀缓存技术,使系统能够直接调用缓存数据,避免重复计算,从而显著降低首Token时延。

UCM还具备智能分级缓存能力,能够根据记忆热度在多种存储介质中实现数据按需流动。同时,它融合了多种稀疏注意力算法,实现了存算深度协同,使得长序列场景下的每秒处理token数(TPS)大幅提升,每Token推理成本显著降低。

在中国银联与华为的联合创新技术试点中,UCM的技术价值得到了充分验证。在中国银联的“客户之声”业务场景下,借助UCM技术,大模型推理速度提升了125倍,能够在极短时间内精准识别客户高频问题,有效提升了服务质量。

在论坛现场,华为还正式公布了UCM的开源计划。UCM通过开放统一的接口,可适配多种推理引擎框架、算力及存储系统。预计在今年9月,UCM将正式开源,并逐步贡献给业界主流推理引擎社区。这一举措将有助于推动AI推理生态的繁荣发展,为行业带来更多创新机遇。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  RSS订阅  |  违规举报