DeepSeek推出NSA机制，加速长上下文训练与推理

发布时间：2025-02-19 15:46:58

近日，DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍，NSA旨在与现代硬件实现高度一致，并且具备本机可训练的特性，专为超快速的长上下文训练和推理而设计。

NSA通过针对现代硬件的优化设计，显著加快了推理速度，并大幅度降低了预训练成本，同时保持了卓越的性能表现。这一机制在确保效率的同时，并未牺牲模型的准确性或功能。

在广泛的基准测试、涉及长上下文的任务以及基于指令的推理场景中，NSA的表现与采用完全注意力机制的模型相当，甚至在部分测试中展现出更优的性能。这一成果不仅验证了NSA机制的有效性和实用性，也展示了DeepSeek在人工智能领域的深厚技术积累和创新能力。

DeepSeek推出的NSA机制，不仅为长上下文训练和推理提供了全新的解决方案，也为人工智能领域的发展注入了新的活力。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com