AI 工作负载的指数级增长正在增加数据中心的功率需求。传统的 54 V 机架内配电专为千瓦(KW)-scale 机架设计,无法支持即将进入现代 AI 工厂的兆瓦(MW)-scale 机架。
从 2027 年开始,NVIDIA 正在率先向 800 V HVDC 数据中心电力基础设施过渡,以支持 1 MW 及以上的 IT 机架。为了加速采用,NVIDIA 正在与数据中心电气生态系统中的主要行业合作伙伴合作,包括:
该计划将推动创新,旨在为新一代 AI 工作负载建立高效、可扩展的供电,以确保提高可靠性并降低基础设施复杂性。
如今, AI 工厂的机架依赖于 54 V DC 电源,其中笨重的 copper busbars 将电力从机架式电源架传输到计算托盘。当机架功率超过 200 kilowatts 时,这种方法开始达到物理极限:
图 1。当前的 Data Center 电源架构
NVIDIA 800 V HVDC 架构通过全面重新设计来应对这些挑战。NVIDIA 正在与数据中心能源生态系统合作,研究实现这一概念所需的创新和变革。
图 2。NVIDIA 800 V HVDC 架构可更大限度地减少能源转换。
传统的数据中心配电涉及多次电压转换,这可能会导致效率低下并增加电气系统的复杂性。通过使用工业级整流器,在数据中心周边将 13.8 kV AC 网电源直接转换为 800 V HVDC,消除了大多数中间转换步骤。这种简化的方法可更大限度地减少能源损失,这些损失通常发生在多个 AC/DC 和 DC/DC 转换期间。
这种方法还显著减少了电源链中需要的带风扇的电源单元 (PSU) 的数量。更少的 PSU 和风扇可提高系统可靠性、降低散热并提高能效,从而使 HVDC 配电成为现代数据中心更有效的解决方案,并显著减少组件总数。
通过单步 AC/DC 转换,该系统可受益于更直接、更高效的电源流,从而降低电气复杂性和维护需求。要全面提供可能的过流保护可靠性和维护收益,仍需要创新。HVDC 还可降低传输损失并提供更好的电压稳定性,确保向关键基础设施持续供电,同时降低铜缆成本和总体材料成本。这种设计可以提高运营效率,同时简化数据中心电源架构。
在配电中,使用 800 V 总线通道并从 415 V AC 切换到 800 V DC,可通过相同的导体尺寸多传输 85% 的功率。出现这种情况的原因是,较高的电压会降低电流需求,降低电阻损耗并提高功率传输效率。
“使用较低的电流,较薄的导体可以处理相同的负载,从而将铜缆需求降低 45%。此外,DC 系统还可消除 AC 特有的低效现象,例如蒙皮效应和无功功率损失,从而进一步提高效率。通过采用 800 V DC 配电,设施可获得更高的功率容量、更高的能效和更低的材料成本。”
“通过采用直接 800 V 输入,计算机架可以高效地处理电源传输,而无需依赖集成的 AC/DC 转换阶段。这些机架接受两条 800 V 导体馈送,并利用计算机架中的 DC/DC 转换来驱动 GPU 设备。消除机架级 AC/DC 转换元件可腾出宝贵空间来处理更多计算资源,从而实现更高密度的配置并提高散热效率。与需要额外电源模块的传统 AC/DC 转换相比,直接 800 V 输入可简化设计,同时提高性能。”
IT 机架的 800 V HVDC 配电以及 GPU 的 12 V DC/DC 转换
**可扩展性: **使用相同的数据中心电力基础设施,支持功率在 100 kW 到 1 MW 以上的机架,从而实现无缝扩展。
**效率 ** :与当前的 54 V 系统相比,端到端效率提升高达 5%,确保更高的能源利用率。
铜缆减少:与传统的 415 V AC 或 480 V DC 架构相比,800 V HVDC 可显著减少数据中心主干的电流、铜缆用量和热损耗。
可靠性: 传统的 IT 机架式 PSU 依靠过度配置来减少机时间,但这会导致频繁的维护周期来更换出现故障的模块。 虽然集中式电源转换可提高系统可靠性,但在 HVDC 系统中,故障检测和可维护性是关键的创新领域。
IT 机架式 PSU 的空间限制会造成散热挑战,导致在成本和长期可靠性之间做出权衡。将 Power Conversion 从机架中移出可降低这些风险。
**面向未来 ** :旨在满足 1 MW 机架的要求,能够随着数据中心需求的发展高效扩展到更高功率的机架。
虽然高压直流架构在过去曾进行过试点,但由于技术和部署方面的挑战,其广泛采用受到了限制。如今,AI 驱动的机架密度、电源转换的进步以及围绕电动汽车(EV)充电标准建立的工业基础的融合正在改变这一格局。
在设施层面部署 800 V HVDC 给安全、标准和员工培训带来了新的挑战。NVIDIA 及其合作伙伴正在积极研究基于传统 Transformer 的和固态 Transformer (SST) 方法的 CapEx 和 OpEx 以及安全影响,以实现这一过渡。
800 V HVDC 不仅仅是当今的机架,而是面向未来的 AI 基础设施。2027 年,800 V HVDC 数据中心将与 NVIDIA Kyber 机架级系统同步全面投产,确保为要求日益严苛的 AI 模型提供无缝可扩展性。
帮助数据中心基础设施处理负载峰值和次秒级 GPU 功率波动的能源存储解决方案是 800 V HVDC 架构的一部分。敬请关注,了解更多详情。
由于 AI 工作负载每次查询所需的计算量增加了 100 倍到 1000 倍,因此该架构可实现持续增长,同时通过提高效率、可靠性和系统架构改进将总体拥有成本 (TCO) 降低高达 30%。
NVIDIA 不仅在构建速度更快的 GPU,还在重新设计整个功率堆栈,以充分发挥 AI 的潜力。超高效、MW-scale AI 工厂的时代由此开始。
By Mathias Blake, Martin Hsu, Harry Petty and Jared Huntington
关于作者
Mathias Blake 是 NVIDIA 杰出的工程师核心技术。Blake 负责确保关键技术为未来的 NVIDIA 产品和解决方案做好大规模生产准备。他在广泛的垂直市场背景下拥有二十多年的硬件和产品设计经验。
Martin Hsu 专注于数据中心基础设施,专注于与合作伙伴和供应商一起管理 NVIDIA MGX 生态系统。此外,Martin 还代表 NVIDIA 担任 VESA 和 HDMI 的董事会成员。他拥有法国国立高等电信学院 (ENST) 电气工程硕士学位和台湾 NCTU 电气工程学士学位。
Harry Petty 是一位经验丰富的数据中心营销人员和技术专家,曾在大型科技公司担任领导职务,为混合云、存储解决方案、网络处理器和服务器产品线推广 SDN 产品。他曾与许多客户合作,在多个数据中心部署应用程序。当 Harry 不讨论 HPC 数据中心的 IO 子系统时,他喜欢在北加利福尼亚州附近的 Sierra 山麓和湖泊中进行户外活动。
Jared Huntington 是一位高级电源架构师,专注于机架和数据中心电源系统。加入 NVIDIA 之前,Jared 从事音频放大器、功率半导体和笔记本电脑电源适配器的研究。他在 Cal Poly San Luis Obispo 学习电气工程。
关注
14文章
5238浏览量
105718关注
16文章
5124浏览量
73169免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com