本文由第三方AI基于17173文章http://news.17173.com/content/02182025/203908956.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
DeepSeek推出NSA:快速进行长上下文训练和推理
2025-02-18 20:39:09
神评论
据报道,DeepSeek团队在其新发表的论文中介绍了NSA(Native Sparse Attention),这是一种创新的稀疏注意力机制,该机制专为与现代硬件高度协同且支持本机训练而设计,旨在实现超高速的长上下文训练与推理过程。
NSA通过一系列针对现代硬件特性的优化设计,不仅显著提升了推理速度,还有效降低了预训练成本,同时确保了模型性能的丝毫不减。
据官方介绍,NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异,与完全注意力模型相比表现相当甚至更佳。
据悉,DeepSeek设计了一种分层的稀疏策略,将注意力分为三个分支:压缩(compression)、选择(selection)和滑动窗口(sliding window),以便同时捕捉全局上下文和局部精细信息。
NSA不仅在算法上实现了稀疏注意力的高效建模,还通过硬件对齐的设计,优化了内存访问和计算调度,使得模型在处理长文本时能够大幅减少计算延迟和资源消耗。
【来源:快科技】
今日热点
热门测试游戏
- 1图个好回忆:21年来数值零膨胀?网游史上最叛逆的尝试,差点把魔兽拉下马!
- 2适合新人和回归玩家!韩国MMO《黑色契约 RED》新服开放
- 3钓鱼执法?2亿成本的游戏大作被泄露,倒霉玩家喜提9999年封禁
- 4流水看天美,口碑看魔方?鹅厂四大工作室,究竟谁是爆款之王
- 51亿人民币烧十年?为啥2A的《昭和米国物语》,工期远超3A?
- 629岁性感超模身材太火辣!走红毯前把裙子撑爆了
- 7韩国MMORPG《缔造者:放逐之境》今日开启事前预约
- 8韩援Yasal超美新照!肉腿腹肌大胸三路齐发看不够!
- 9成人手游《星陨计划》全新版本更新,联动活动还有限定团员!
- 10《剑灵:革命》26日大更新:引擎升级 新增职业



