华为云推出柔性智算FlexNPU 有效降低Token成本
华为云FlexNPU柔性智算技术,通过极致弹性调度将Token成本降低40%以上,破解企业AI算力利用率不足30%的痛点,实现Agent时代最优性价比!
据媒体报道,华为云在中小企业AI解决方案发布会上推出了一项算力黑科技——柔性智算操作系统FlexNPU,将Token消耗这一“吞金兽”有效控制在企业预算范围内,打造面向Agentic时代的极致Token性价比,为企业级智能体的普及突破算力瓶颈。
据介绍,在AI基础设施层,华为云提供昇腾多代系产品及自研的AI Infra OS,其中FlexNPU柔性智算技术既能满足中小企业小模型训练场景的需求,又可通过弹性调度大幅提升资源利用率。
在模型服务层,华为云支持业界主流开源模型,让企业既可灵活选择适配业务需求的模型,也能结合自有数据低成本微调专属模型。

在智能体平台层,华为云提供易用高效的Agent开发环境,助力开发者和中小企业面向行业场景打造企业级智能体。在智能体应用层,华为云联合伙伴深入洞察分析、营销运营、协同办公、开发运维、内容制作等高频应用场景。
“我们的推理池平均利用率竟然不足30%,花费重金建设、动辄数万、数十万卡的AI硬件算力池,竟有超过一半以上的算力在‘摸鱼、吃空饷’。”华为云首席架构师、华为公司Fellow顾炯炯在现场抛出了一组惊人数据。
他指出,Agent时代企业普遍面临算力痛点:Agent自主规划、多轮迭代、长上下文导致Token消耗量呈指数级增长,如何有效降低Token成本,已成为最核心和迫切的挑战。

为此,华为云发布了柔性智算FlexNPU,通过构筑强大而灵活的AI Infra层算力调度技术,大幅提升推理池的有效算力利用率,从而以相同的AI硬件算力投入,提供更大的Token吞吐输出。
顾炯炯用“可大可小、变化随心”的如意金箍棒来形容FlexNPU,表示FlexNPU赋予NPU或GPU算力“柔性或液态化”供给与伸缩的能力,可依据任意业务需求动态变化、随需而动,通过最大化AI算力投入的利用率,最终实现Token性价比的最优化。
具体而言,柔性智算FlexNPU具备极致共享、极致弹性和极致高可用三大属性。在大模型推理方面,FlexNPU通过引入基于柔性算力的PD动态混部、在离线推理混部等创新技术,解决了传统PD分离架构下Prefill和Decode集群不均衡的AI Core与显存利用率,以及推理业务潮汐变化规律所导致的大量AI算力空转浪费问题,带来至少40%的Token性价比提升。
在小模型推理方面,FlexNPU通过实现最小粒度达1% NPU卡及128MB显存的AI Core时分复用与显存空分复用,为小模型提供完美匹配其算力诉求、量体裁衣的虚拟NPU资源,将小模型的平均算力成本降低2至3倍以上。
在推理高可用保障方面,FlexNPU通过软硬解耦及Token级KV Cache的实时快照,使上层推理框架无需感知底层硬件故障,即可实现故障秒级快速恢复及断点续推,大幅减少Agent推理会话的重计算开销,提升用户推理体验。

- 1《遗忘之海》PC端7月9日公测上线!公测前瞻情报公开
- 2《英雄联盟》官宣怀旧模式,详情于7月12日MSI决赛揭晓
- 3《剑侠情缘:重逢》正式官宣开启预约,虎牙联手西山居打造三端互通
- 4戴炸弹项圈输了就"爆炸"!日本推出《弥留之国的爱丽丝》真人大逃杀游戏
- 5《三体2:黑暗森林》罗辑选角引发全网热议,胡歌演技争议成焦点
- 6《洛奇》22周年新企划,《洛奇永恒》换新引擎,经典场景重制
- 7魔兽故事:暴雪真没活了!魔兽新剧情再玩弑师梗?最强洛阿被一刀秒
- 8《幻兽帕鲁》正式版,27页系统大幅革新,官方建议新开存档
- 9五千万人预约的“新世界”,又把MMO的桌子给掀了
- 10《胜利女神》联动《女神异闻录》,泄露视频紧急下架

