/ ai资讯

DeepSeek推出NSA机制,加速长上下文训练与推理

发布时间:2025-02-19 15:46:58

近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练的特性,专为超快速的长上下文训练和推理而设计。

NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持了卓越的性能表现。这一机制在确保效率的同时,并未牺牲模型的准确性或功能。

在广泛的基准测试、涉及长上下文的任务以及基于指令的推理场景中,NSA的表现与采用完全注意力机制的模型相当,甚至在部分测试中展现出更优的性能。这一成果不仅验证了NSA机制的有效性和实用性,也展示了DeepSeek在人工智能领域的深厚技术积累和创新能力。

DeepSeek推出的NSA机制,不仅为长上下文训练和推理提供了全新的解决方案,也为人工智能领域的发展注入了新的活力。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com