新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

华为昇腾、阿里平头哥、沐曦、壁仞：四大国产GPU可以在一起了！

2026-03-08 16:01:24 神评论

17173 新闻导语

上海AI实验室推出DeepLink多元算力混合推理加速方案，实现华为昇腾、阿里平头哥、沐曦、壁仞四大国产GPU协同推理，推理时延优化34.5%，吞吐提升32%。

上海人工智能实验室（上海AI实验室）官方宣布，基于此前的DeepLink混训技术方案、跨千公里多智算中心长稳混训千亿参数大模型，正式推出DeepLink多元算力混合推理加速方案，实现了对华为昇腾、沐曦、阿里平头哥、壁仞等多款国产GPU芯片的混合调度与协同推理。

据悉，DeepLink混推方案基于统一推理中间件、低时延通信、智能流量路由、策略求解器等原创技术，不仅可对多款芯片混合调度与协同推理，性能也大幅提升，对比单一芯片方案，推理时延TTFT最大可优化34.5％，推理吞吐最大可提升32％。

近些年，国产AI GPU如雨后春笋，性能越来越强，但一方面都是各自为战，另一方面大模型推理技术也需要深入优化和提升。

上海AI实验室在国产GPU异构算力中，运用了预填充-解码分离（PD分离）策略，验证了混合芯片高效协同推理的路径。

同一数据中心内不同规格属性的GPU芯片组合优化使用，可以形成最具性价比的异构算力配比。

具体实现上，上海AI实验室通过四大原创技术底座，实现了对异构算力资源的兼容调度。

推理中间件（DLInfer）：

以标准化融合算子接口打通上层框架与底层硬件壁垒，实现算法模型在多元硬件上的统一推理，降低应用门槛。

高速通信库（DLSlime）：

全面兼容各类主流物理连接协议，实现跨架构设备高速互联，核心场景带宽利用率突破97％；具有较强的异步处理能力，可实现计算与通信的重叠。

智能流量路由系统（DLRouter）：

支持KVCache感知的请求路由，最大限度减少重复或重叠请求，节省计算资源，实现分布式集群负载均衡分配。

策略求解器（DLSolver）：

自动获取异构芯片全方位评测数据，结合模型配置以及用户服务等级目标等输入，匹配最优PD分离配置策略，兼顾推理性能与成本。

单一算力平台推理加速方面，可以实现在华为昇腾A2上，针对千卡规模下的化学数据生成场景，吞吐率提升61.9％；在沐曦曦云C500上，MinerU多模态生成推理加速60％。

多款国产GPU芯片的深度混合调度与协同推理方面，千卡规模推理集群实测数据表明，在多模态生成、高并发智能服务等典型场景下，比单芯片方案推理时延TTFT最大可优化34.5％；

在科学论文处理等长输入短输出推理任务中，推理吞吐可提升32％。

值得一提的是，除了以上四家，寒武纪、燧原科技、天数智芯、无问芯穹、商汤科技、中科曙光等也都是上海AI实验室和DeepLink技术方案的合作伙伴。

相信会看到越来越多的国产GPU并肩战斗！

参考链接：

DeepLink官网：https://deeplink.org.cn/home

DeepLink Github：https://github.com/DeepLink-org

DLInfer仓库：https://github.com/DeepLink-org/dlinfer

DLSlime仓库：https://github.com/DeepLink-org/DLSlime

DeepLink合作伙伴

【来源：快科技】

关于华为昇腾,阿里平头哥,沐曦,壁仞,DeepLink,GPU,AI,大模型,推理加速,异构算力的新闻

17173 首页全新改版规划中！现向各位玩家征集真实使用意见，你的想法将直接影响新版页面设计～动动手指填写问卷，快来共创你心仪的页面布局吧！ 参与问卷

今日热点

热点预告：聚焦16号！《冒险岛》怀旧服等扎堆

冒险岛怀旧服封测逆水寒春季资料片三角洲行动新版本

三年机甲无人问，丝袜模拟天下知

国Gal“妓女”女二引爆争议《影之刃》9月9日全球发售

热门测试游戏

热门新闻排行

Wan网页游戏免费玩