本文由第三方AI基于17173文章http://news.17173.com/content/06052026/220319677.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍
2026-06-05 22:03:19
神评论
17173 新闻导语
腾讯混元Stem稀疏注意力算法被顶会ICML-26收录,仅用25%算力逼近全精度,首字延迟降低3.6倍!开源HPC算子库加速,AI推理效率飞跃。点击查看详情。
感谢网友 江山已旧、Domado 的线索投递! ▲ Stem 在 Hy3 preview(W8A8-FP8)上更贴近生产环境的真实落地数据 ▲ 模型精度
6 月 5 日消息,腾讯混元今日宣布提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。

官方表示,Stem 稀疏注意力算法从“因果信息流”重新审视块级稀疏,用 Token 位置衰减(TPD)和输出感知度量(OAM)两大创新,仅用 25% 算力就逼近稠密注意力的精度。配套的 HPC 算子库则将这份理论加速比真正转化为端到端的实测性能。

根据 Stem 算法 × HPC 算子的全栈加速方案,算法层面,Stem 通过 Token 位置衰减(TPD)和输出感知度量(OAM)实现 25% 预算下的近无损精度;算子层面,HPC 开源的 Stem+BSA 算子将稀疏收益转化为真实硬件加速,128K 上下文下首字延迟降低 3.6 倍。

附相关链接如下:
Stem 论文链接:https://arxiv.org/abs/2603.06274Stem
开源地址:https://github.com/Tencent/AngelSlimHPC
算子开源地址:https://github.com/Tencent/hpc-ops
【来源:IT之家】
热门测试游戏

