本站综合报道 随着AI技术迅猛发展,尤其是大型语言模型的兴起,对于算力的需求呈现出爆炸性增长。这不仅推动了智算中心的建设,还对网络互联技术提出了新的挑战。
在AI大模型训练过程中,由于单个AI芯片的算力提升速度无法跟上模型参数的增长速率,再加上庞大的模型参数和训练数据,已远远超出单个AI芯片甚至单台服务器的能力范围。因此,需要将数据样本和模型结构分散到多个计算设备上,这导致了设备间的频繁通信需求。为了适应这一变化,智算中心服务器内部的网络互联技术变得至关重要。
芯片间互联技术
AI服务器的互联技术是保障其高性能计算能力的关键,涉及芯片间、服务器内以及服务器间等多个层面的高速数据传输。
芯片间互联技术方面,英伟达、AMD、英特尔都推出了相关技术,分别是NVLink、Infinity Fabric、CXL(Compute Express Link)等。NVLink是由NVIDIA开发的GPU之间的高速互连技术,能加快CPU与GPU、GPU与GPU之间的数据传输速度,提高系统性能。从2016年到2022年,NVLink历经多次迭代更新,例如基于Hopper架构的第四代NVLink,单链可实现50GB/s的双向带宽,单芯片可支持18链路,即900GB/s的总双向带宽。在NVIDIA的DGX H100服务器中,GPU(H100)之间互联主要通过NV Switch芯片来实现,而NV Switch芯片与GPU之间的数据传输就依赖于NVLink。
AMD推出的Infinity Fabric,由传输数据的Infinity Scalable Data Fabric(SDF)和负责控制的Infinity Scalable Control Fabric(SCF)两个系统组成,连接了on-die和off-die以及多路CPU间的通信。最新的AMD Instinct MI300X GPU采用5nm制程,支持客户将8个GPU整合为一个性能主导型节点,并且具有全互联式点对点环形设计,使用了第4代Infinity Fabric高速总线互联,总线带宽达到896GB/s(与英伟达H100的900GB/s带宽相当)。
CXL(Compute Express Link)是英特尔提出的一种开放性互联协议,CXL是建立在PCIe物理层之上的协议,可以实现设备之间的缓存和内存一致性。利用广泛存在的PCIe接口,CXL允许内存在各种硬件上共享:CPU、NIC和DPU、GPU和其它加速器、SSD和内存设备,从而满足高性能异构计算的要求。
服务器内互联技术有PCIe Switch、Retimer芯片。PCIe Switch,即PCIe开关或PCIe交换机,主要作用是实现PCIe设备互联。由于PCIe的链路通信是一种端对端的数据传输,需要Switch提供扩展或聚合能力,从而允许更多的设备连接到一个PCIe端口,以解决PCIe通道数量不够的问题。例如在AI服务器中,GPU与CPU连接时可能需要用到PCIe Switch,并且随着PCIe总线技术的升级,PCIe Switch每代速率提升,能提高数据传输的速度。
在AI服务器中,GPU与CPU连接时至少需要一颗Retimer芯片来保证信号质量,很多AI服务器都会配置多颗Retimer芯片。例如Astera Labs在AI加速器中配置了4颗Retimer芯片。
AI服务器间互联技术
服务器间互联技术有InfiniBand、RoCE、高速以太网。InfiniBand是一种高性能的网络互联技术,具有低延迟、高带宽的特点,能够满足AI服务器之间超低延迟、超高带宽的通信需求,适用于大规模AI模型训练时服务器之间的高效通信和数据同步。例如训练超大模型往往需要成百上千台服务器组成集群,服务器之间就需要InfiniBand这样的网络进行高效通信。
RoCE(RDMA over Converged Ethernet),基于以太网的RDMA(远程直接内存访问)技术,它允许数据在网络中直接从一台计算机的内存传输到另一台计算机的内存,而无需操作系统内核的介入,从而降低了延迟,提高了带宽利用率,可用于AI服务器间的互联,提升数据传输效率。
高速以太网,如400Gbps甚至800Gbps以太网适配器,能为AI服务器间提供高速的网络连接,保障大规模集群部署时服务器之间的数据传输性能。例如昆仑芯超节点结合百度智能云自研的基于导轨优化的HPN(High Performance Network)架构,可支撑从数百卡到上万卡的XPU集群构建,其中就涉及到高速以太网技术的应用。
小结
在AI服务器中,互联技术的作用已从数据传输通道升级为算力释放引擎。通过高带宽、低延迟、可扩展的互联架构,AI服务器能够突破单节点算力瓶颈,实现万亿参数模型的分布式训练;降低推理延迟,支撑实时AI应用的商业化落地;优化能效比,应对超大规模数据中心的能耗挑战。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com