本文由第三方AI基于17173文章http://news.17173.com/content/05132026/120400682.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
上游不优化我自己来!五年老卡RX 6800 XT内核魔改:MoE速度暴增至1770t/s
2026-05-13 12:04:00
神评论
17173 新闻导语
AMD RX 6800 XT内核魔改成功!MoE大模型速度暴增至1770t/s,性能提升近4倍。了解llama.cpp专属分支如何通过底层优化实现飞跃。
开发者Stormrage34近日发布llama.cpp分支TurboQuant-HIP v0.3.0版本,通过重写矩阵乘法内核,成功将AMD RX 6800 XT显卡的MoE大模型预填充速度从上游llama.cpp主分支下的约480 t/s提升至1770 t/s
该团队长期维护面向AMD GPU深度适配的llama.cpp专属分支,专门针对AMD硬件特性优化大语言模型推理性能。

上游官方版本llama.cpp此前将AMD GPU作为通用后端适配,核心计算内核均针对NVIDIA架构开发,随后直接移植到AMD后端,在RDNA2架构上存在大量带宽浪费问题,MoE场景运算完全受内存带宽限制。
该团队从HIP底层切入做针对性改进,新开发的基于BFE的IQ4_XS反量化内核,独立运行速度较原有方案提升13倍。
同时,新增异步流水线调度逻辑,将内核启动延迟和运算过程做重叠处理,直接降低31%的内核启动开销。
带来MoE场景约4倍性能跃升的核心,是实验性LDS双缓冲矩阵乘法内核,实现权重加载和DP4A计算并行,最大化利用硬件算力资源。
目前该核心优化功能仅开放手动标志位启用,仍存在对称瓦片尺寸下的LDS存储体冲突问题,导致延迟波动偏高暂不适合生产环境,完整修复方案已经制定完成。
用户可通过项目仓库提供的脚本直接构建测试版本,无需修改CMake配置文件,该分支完整保留上游全部原有功能。

【来源:快科技】
热门测试游戏
- 1NEXON全新暗黑风MMORPG《无冕之烬》今日开启免费试玩
- 27年磨一剑磨出个寂寞!潮玩巨头做游戏,上线2年亏了1亿多
- 3游戏史上素质最差的角色!脏话多到创造吉尼斯记录?
- 4《御龙在天》6月16日全服更新 端午多重福利 新职业揭秘来袭
- 5白精灵被包围了!《天堂2:盟约》亚丁王座巡礼火热回顾!
- 6孙悟空心魔六耳免费领取!腾讯《王者荣耀》官宣新企划“英雄命格”开启
- 7真能飞!骑着“熊猫”上天!《魔兽世界》端午活动官宣
- 8《使命召唤:现代战争4》战役将于10月17日抢先展开体验
- 9瑟瑟才是第一生产力!《剑星:血雨》预告片臀部展示画面玩家观看次数最多
- 10亚洲游戏爆杀欧美DEI! 国外玩家盛赞中日韩游戏美女角色!

