/ ai资讯

借助美光9550高性能SSD提升AI工作负载

发布时间:2025-07-14 17:46:32

推理将成为数据中心最常见的工作负载,这一点毋庸置疑。随着数据中日益广泛采用NVIDIA H100,以及非NVL72系统开始部署NVIDIA DGX B200,计算能力正迎来爆炸式增长。

观察PCIe各代产品带宽扩展与计算能力增长的情况可以发现:从PCIe 3.0到6.0,带宽增长了8倍,而GPU FLOPS在同一时期增长了37.5倍。

我们还发现,过去四年间,训练集群的平均FLOPS增加了905倍,而训练数据集中的数据点数量在同一时期增加了2,500倍。

虽然推理一直是且将继续是计算密集型工作负载,但其对快速存储的依赖正在迅速显现。推理模型将推动大语言模型 (LLM) 的实用性、准确性和资源需求大幅提升。序列长度的增加促使LLM系统设计不断创新,将KV缓存存储到磁盘而非刷新后重新计算正在成为效率更高的做法。这将对企业用于推理的GPU本地系统提出更高的性能要求。

我们关注这一趋势已有一段时间,并因此研发出了美光9550这款性能出色的SSD。其高IOP和卓越能效能够有效契合这些新兴工作负载的需求。

举例而言,我们使用微软的DeepSpeed ZeRO-Inference工具对美光9550与某前沿竞品进行了测试。结果显示,美光9550的读取速度快15%,平均功耗低27%,从而使SSD能耗低37%、系统总能耗低19%。

尽管写入操作只占推理工作负载的一小部分,但不同SSD在写入性能方面存在显著差异。美光9550的写入速度快78%,同时平均功耗低22%。这表明美光9550完成推理任务的能耗仅为其他产品的一半,且系统总能耗低43%。

随着计算能力的迅猛发展以及推理领域令人瞩目的实用性创新成果不断涌现,存储技术亟待跟上步伐。数据中心SSD的开发周期较长;NAND制造、ASIC设计、功耗、散热等环节均对AI系统中存储的最终性能起着关键作用。美光多年来一直在测试人工智能 (AI) 工作负载,并将其视为美光9550以及其他新一代数据中心SSD开发工作的重要组成部分。我们深知,要打造契合未来AI工作负载需求的存储解决方案,就必须在当下先人一步。

测试详情:

DeepSpeed ZeRO AIO读取——在GPU内部通过DeepSpeed库模拟合成工作负载。

测试系统:2颗Intel Xeon Platinum 8568Y 、768GB DDR5 DRAM、2块NVIDIA L40S GPU竞品是一款PCIe 5.0高性能数据中心SSD,其在规格和目标用例方面与美光9550相似。

相关数据通过850次测试运行产生,测试历时446小时。

本文作者

Ryan Meredith

美光存储解决方案架构总监

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com