新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

DeepSeek推出NSA：快速进行长上下文训练和推理

2025-02-18 20:39:09 神评论

据报道，DeepSeek团队在其新发表的论文中介绍了NSA（Native Sparse Attention），这是一种创新的稀疏注意力机制，该机制专为与现代硬件高度协同且支持本机训练而设计，旨在实现超高速的长上下文训练与推理过程。

NSA通过一系列针对现代硬件特性的优化设计，不仅显著提升了推理速度，还有效降低了预训练成本，同时确保了模型性能的丝毫不减。

据官方介绍，NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异，与完全注意力模型相比表现相当甚至更佳。

据悉，DeepSeek设计了一种分层的稀疏策略，将注意力分为三个分支：压缩（compression）、选择（selection）和滑动窗口（sliding window），以便同时捕捉全局上下文和局部精细信息。

NSA不仅在算法上实现了稀疏注意力的高效建模，还通过硬件对齐的设计，优化了内存访问和计算调度，使得模型在处理长文本时能够大幅减少计算延迟和资源消耗。

【来源：快科技】

今日热点

热点预告：《古剑》开启试玩！《龙之谷》推出国风职业

《古剑》7月18日线下试玩《终末地》云游戏不限量测试

画质最强的国产MMO！被玩家骂了一整年后，如今咋样?

《魔兽世界》12.1奖励全解析《暗黑4》S14赛季7月1日上线

热门测试游戏

热门新闻排行

Wan网页游戏免费玩