DeepSeek 开源周首日：发布大模型加速利器FlashMLA

发布时间：2025-02-24 11:35:52

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA，这是一款专为英伟达Hopper架构GPU打造的高效多层注意力（Multi-Layer Attention）解码内核。该技术特别针对变长序列场景进行优化，可显著提升大模型推理性能。

FlashMLA的核心技术特性包括对BF16精度的全面支持，以及采用块大小为64的页式键值缓存（Paged KV Cache）系统，实现更精确的内存管理。在性能表现方面，基于CUDA12.6平台，FlashMLA在H800SXM5GPU上创下了显著成绩:在内存受限场景下达到3000GB/s的处理速度，在计算受限场景下则实现580TFLOPS的算力水平。

该项目已经过生产环境验证，展现出优异的稳定性。开发团队表示，FlashMLA的设计借鉴了FlashAttention2&3和cutlass等项目的优秀经验，并在此基础上实现了创新突破。

开发者可通过简单的安装命令快速部署FlashMLA:只需执行"python setup.py install"即可完成安装，随后可运行测试脚本"python tests/test_flash_mla.py"体验其性能。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

DeepSeek 开源周首日：发布大模型加速利器FlashMLA

相关阅读

ai资讯推荐

最新资讯