新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

上游不优化我自己来！五年老卡RX 6800 XT内核魔改：MoE速度暴增至1770t/s

2026-05-13 12:04:00 神评论

17173 新闻导语

AMD RX 6800 XT内核魔改成功！MoE大模型速度暴增至1770t/s，性能提升近4倍。了解llama.cpp专属分支如何通过底层优化实现飞跃。

开发者Stormrage34近日发布llama.cpp分支TurboQuant-HIP v0.3.0版本，通过重写矩阵乘法内核，成功将AMD RX 6800 XT显卡的MoE大模型预填充速度从上游llama.cpp主分支下的约480 t/s提升至1770 t/s

该团队长期维护面向AMD GPU深度适配的llama.cpp专属分支，专门针对AMD硬件特性优化大语言模型推理性能。

上游官方版本llama.cpp此前将AMD GPU作为通用后端适配，核心计算内核均针对NVIDIA架构开发，随后直接移植到AMD后端，在RDNA2架构上存在大量带宽浪费问题，MoE场景运算完全受内存带宽限制。

该团队从HIP底层切入做针对性改进，新开发的基于BFE的IQ4_XS反量化内核，独立运行速度较原有方案提升13倍。

同时，新增异步流水线调度逻辑，将内核启动延迟和运算过程做重叠处理，直接降低31%的内核启动开销。

带来MoE场景约4倍性能跃升的核心，是实验性LDS双缓冲矩阵乘法内核，实现权重加载和DP4A计算并行，最大化利用硬件算力资源。

目前该核心优化功能仅开放手动标志位启用，仍存在对称瓦片尺寸下的LDS存储体冲突问题，导致延迟波动偏高暂不适合生产环境，完整修复方案已经制定完成。

用户可通过项目仓库提供的脚本直接构建测试版本，无需修改CMake配置文件，该分支完整保留上游全部原有功能。

【来源：快科技】

关于RX 6800 XT,llama.cpp,AMD GPU,MoE,内核优化,HIP,RDNA2,矩阵乘法,大语言模型,性能提升的新闻

今日热点

又一款MMO端游大作来袭《永恒之塔2》国服发布会预告

《古剑》41分钟实机演示首曝《终末地》云游戏不限量测试

国内首款永久免费3D网游，结果官方卖挂还盗号？

《魔兽世界》国服整治公告《魔兽世界》TBC周年大更：双经典团本回归！

热门测试游戏

热门新闻排行

Wan网页游戏**玩