华为昇腾 0 Day 支持智谱 GLM-5.2 模型,提供全面推理优化
华为昇腾0 Day支持智谱GLM-5.2模型,全面推理优化助力长程任务与编程,国产算力平台首发,1M上下文高效运行,点击了解详情。
6 月 18 日消息,“昇腾 AI 开发者”公众号 6 月 17 日宣布,昇腾 0 Day 支持 GLM-5.2,为编程与长程任务提供全面推理优化。
据官方介绍,目前昇腾 A3 系列产品已经支持 GLM5.2 的单双机以及大 EP 推理部署。针对 GLM5.2 模型的结构特点,昇腾围绕以下几个关键技术开展了高效推理优化:
MOE 大融合算子:将专家路由、加权计算与结果归约融合为统一算子,消除中间张量冗余读写,显著提升计算效率。
通信与计算融合:通过将 AllReduce 优化为 ReduceScatter 与 AllGather 通信原语,并与矩阵计算形成紧耦合流水线,实现通信延迟的有效隐藏。
注意力前处理与多 Token 预测优化:采用注意力前处理融合算子,结合多 Token 预测(MTP)机制的加速,提升单步生成效率。
高并发调度与预填充延迟机制:在高并发混合负载场景下引入预填充延迟调度,平滑计算峰值,降低 Prefill 阶段对 Decode 阶段的资源抢占。
智能缓存与索引优化:结合 IndexCache 技术缓存高频专家路径与静态路由表,并采用 Chunked Prefill、稀疏索引检索等方法,优化长上下文推理性能。
PD 分离与 Prefix Cache:通过 Prefill 与 Decode 阶段分离及前缀缓存技术,压缩解码时延抖动,提升在线服务吞吐稳定性。
注意到,智谱 6 月 17 日宣布上线并开源 GLM-5.2。在全球百万用户参与盲测的前端开发评估系统 Code Arena 上,GLM-5.2 取得全球可用模型第一的表现。

官方表示,GLM-5.2 专为长程任务能力而生,特色包括:
Solid 1M 上下文:稳定支撑长程任务,多个长程任务基准表明 GLM-5.2 的表现介于 Claude Opus 4.7 与 4.8 之间,是排名最高的开源模型

更强体感,更实用的 Coding 能力:在主流编程基准上,GLM-5.2 保持开源 SOTA,与 Claude Opus 4.8 处于可比区间

极致 Infra 优化,Day 0 运行在国产算力平台:在 1M 上下文长度下,将单位 token 的 FLOPs 降低至 2.9 倍;已在 Day 0 完成与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配;预计下半年昇腾 950 超节点上市后,也将成为 GLM-5.2 强劲的算力底座

- 1光影细节拉满!国产虚幻5大作《诡秘之主》全新实机视频曝光
- 2取消点卡,《逆水寒》想给经典MMO一个新答案?
- 3狂卖1600万份后,《弧光猎人》是怎么理解“撤离射击”这个品类的?
- 4米哈游再现“百万氪佬”!打着二创旗号开连锁店,败诉赔298万
- 5等了十年!《彩虹六号》国服终于开测,这十年到底卡在哪?
- 6《三国杀》IP首款战棋游戏《三国杀:天命棋局》6月18日开启测试
- 7离了大谱的网游!《Sol: Enchant》吹过的牛逼到底有多牛逼?
- 8《天堂M》大版本更新:妖精职业重做,全新区域开启
- 9《无冕余烬》流放之路+方舟?从养成内核到后续游玩搬砖评估!
- 10韩国像素MMO新作《鬼怪世界》公开世界观,预约7月开启

