华为与湖北移动完成全国运营商首个 AI 推理加速方案现网测试,长序列 Token 吞吐率提升 372%
华为联合湖北移动完成全国首个AI推理加速现网测试,长序列Token吞吐率暴增372%,UCM技术突破KV Cache瓶颈,大幅提升大模型推理效率。
6 月 26 日消息,6 月 24 日,在 2026 MWC 上海展期间,华为与中国移动通信集团湖北有限公司(注:以下简称“湖北移动”)联合宣布,双方已成功完成全国运营商首个 AI 推理加速解决方案现网测试。
据介绍,该测试基于华为 OceanStor A800 存储与昇腾 A3 超节点架构,搭载 UCM (Unified Cache Manager,推理记忆数据管理),在长序列 AI 推理场景下,实现了 Token 吞吐率最高可提升 372% 的突破性成果。
文章称,随着 AI 应用加速向 Agent(智能体)形态演进,长上下文序列(如代码生成、多轮对话)已成为典型场景,但传统算力卡高带宽内存容量有限,严重制约了 KV Cache 的命中率。华为在 2025 年底重磅推出了 UCM 推理记忆数据管理技术,打破高带宽内存和 DRAM 的容量限制,通过外置存储提供 PB 级的 KV Cache,并对 KV Cache 进行全生命周期的分层管理与调度,不仅在单次对话时大幅扩展上下文窗口,还能在多轮对话中复用历史 KV Cache,避免重复计算。
本次测试在湖北移动现网环境中部署 vLLM-Ascend 框架,针对 MiniMax M2.5、GLM-5.1 等主流大模型,模拟了 8K 至 190K 长序列输入场景。测试结论如下:
MiniMax M2.5 模型场景下:启用 UCM 后,首 Token 延迟(TTFT)优化 26%~62%,单 NPU 卡 Token 输出效率(TPS)有大幅提升。从不同序列长度分别来看,64K 的序列长度下 TPS 提升 58%,在 128K 序列环境下,TPS 提升 78%。
GLM-5.1 模型场景下:TTFT 优化幅度达 51%~93%,TPS 提升 56%~372%。其中在 64K 序列长度下,TPS 提升 313%,在 128K 序列环境下,TPS 提升 372%。
华为表示,测试表明,随着上下文长度增加,AI 推理加速方案优势持续放大,有效解决了长序列推理中的 KV Cache 容量瓶颈。
- 1《传奇世界无双》今日全平台正式上线,奥尼尔领衔,主播天团入驻!
- 2《飞飞:无限宇宙》今日正式公测,经典飞行网游重返瑞加大陆
- 3居然好起来了?《暗黑4》装备系统大改,S14苏醒赛季即将上线!
- 4性感泳衣太风骚!网石18禁MMO《RAVEN2:渡鸦》夏日版本上线
- 5绝地求生开发商新作《Project ZETA》开启全球首测
- 6《逆水寒:新世界》今日正式开服,同起点共赴全新江湖
- 7叶锦添执笔,共赴江南之约!《燕云十六声》今日开启“江南时代”
- 8前作大卖140万份,DLC口碑却翻车,玩家吐槽翻译敷衍
- 9《诡秘之主》发布5分钟实机PV,首轮三端测试“灰雾测试”今日开启
- 10商城不卖属性、神兽两个月白拿,这款游戏静悄悄吸粉四千万!

