DeepSeek发表纯技术论文报告《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》DeepSeek团队近日发布了一种名为NSA(Natively Sparse Attention)的新型稀疏注意力机制,提高了长文本处理的效率,同时保持甚至超越传统全注意力(Full Attention)模型的性能。NSA采用动态分层稀疏策略,将粗粒度的令牌压缩与细粒度的令牌选择相结合,以保留全局上下文信息和局部精度。其核心创新包括:(1)优化计算强度以提高现代硬件的计算效率,并通过专门的实现最大化利用计算资源;(2)支持端到端训练,有效减少预训练计算成本,同时保持模型性能。实验结果表明,基于NSA预训练的模型在通用基准测试、长文本任务及指令推理方面均表现出色,并在64k长度的序列处理中,实现了在解码、前向传播和反向传播各阶段的显著加速。NSA的推出有望推动下一代大语言模型在高效长文本建模领域的进一步发展。 ☘️ ️
- 转载请保留原文链接谢谢!
- 本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。
- 本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。
- 本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
- 联系方式:936787576@qq.com