在10月29日由中国电子工业标准化技术协会举办的数据存储专业委员会(简称“数据存储专委会”)成立大会上,汇聚了产业界代表、专委会成员及多位院士专家,共逾百人,共同探讨了数据存储产业的发展,并见证了数据存储专业委员会的正式成立。会上,中国工程院院士、数据存储专委会名誉会长郑纬民发表了题为“AI存储:人工智能大模型的基石”的主旨演讲。
郑纬民院士指出,人工智能进入大模型时代展现出两大特征:一是基础大模型迈入多模态时代,实现了从单一文本到图片、视频等多模态信息的综合应用;二是大模型已在金融、医疗、智能制造等多个领域得到实际应用。
针对大模型的四个关键环节,郑纬民院士详细阐述了存储在大模型训练和推理应用中所面临的挑战及相关技术:
首先,数据获取阶段,大模型训练需要海量的原始数据,这些数据需被存储设备妥善保存。随着大模型从单模态向多模态发展,产生了数以百亿计的小文件,这对文件系统的目录扩展性、读写速度以及存储的低延迟和高可扩展性提出了更高要求。
其次,数据预处理阶段,由于原始数据质量参差不齐,存在大量重复和低质量数据,因此需要进行预处理以提升数据质量。以ChatGPT4级别的大模型为例,其训练过程可能需要1万块A100显卡耗时11个月,其中数据预处理可能占据一半以上的时间,这与数据存储的性能密切相关。
再次,模型训练阶段,大规模训练系统(如10万块显卡组成的系统)的可靠性难以保证,频繁出现故障,导致集群可用度低下。为了快速恢复训练,需要依赖高性能的存储系统来快速读取CheckPoint数据。华为与清华大学MADSys实验室联合开发的高性能AI存储系统在此方面表现出色,曾在国际权威机构MLPerf Storage基准评测中获得第一名,性能密度是第二名的两倍。
最后,模型推理阶段,这是与AI应用最直接相关的环节。更高效的人工智能需要处理更多数据、使用更大模型以及更长的上下文窗口,但这同时也带来了极重的推理负载。模型参数以及推理过程中产生的KV-Cache需要巨大的存储空间。为此,国内优秀的大模型应用Kimi与清华大学MADSys实验室共同推出了Mooncake分离式推理架构,通过保存共享的KV-Cache,采用以存换算的策略大幅提升系统吞吐。
郑纬民院士强调,模型推理过程是一个复杂的存储系统工程,关键在于存储容量大、传输速度快以及性价比高。清华大学MADSys实验室联合华为数据存储、9#AISoft、阿里云、面壁、趋境等公司共同开发的高性能内存型长记忆存储系统即将开源发布,该系统能够实现大范围全局共享与持久化KV-Cache,以存换算,共同构建大模型时代下的高性能内存型长记忆存储系统生态。
最后,郑纬民院士总结指出,AI存储是人工智能大模型的基石,贯穿于大模型生命周期的每一个环节。通过以存强算、以存换算,先进的AI存储能够提升训练集群的可用度,降低推理成本,提升用户体验。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com