随着数字化转型、物联网设备的普及、云计算的扩展、以及人工智能和机器学习技术的广泛应用,全球每年新产生的数据总量随着数字化的发展快速增长。
根据IDC和华为GIV团队预测,2020年全球每年产生数据量约2ZB,2025年可达到175ZB,2030年将达到1003ZB,即将进入YB(1 Yotta Bytes = 1000 Zetta Bytes)时代。
数据量的增长意味着需要更多的计算资源来处理、存储和分析这些数据,尤其是在对数据处理技术与时效性方面提出了更高的要求,因此云计算、大数据、人工智能等数据处理技术需要更高的算力支撑。
根据“中国算力发展指数白皮书(2022)”,2024年全球算力规模预计达2380 EFlops,而到2030年,预计可达到56000 EFlops。
全球算力规模的增加则主要来源于两个方面:一是单颗算力芯片的性能提升,二是数据中心数量与规模的扩张。
目前,英伟达的GPU在全球AI算力芯片市场中占据了80%以上的市场份额,在过去的八年里,英伟达通过改进芯片架构、提升制程工艺、采用HBM及先进封装形式,其GPU算力提升了约1000倍。
在算力提升的同时,芯片功耗也在不断增加,根据亚太芯谷科技研究院统计,英伟达最新推出的GB200芯片功耗达到了惊人的2700W,是其V100芯片功耗的近10倍。
而AI算力芯片市场的另一主要厂商AMD,在2020年至2024年迭代的GPU芯片功耗也大幅增加,由MI100的300W增加至MI300的750W。
英伟达、AMD芯片功耗演进
英伟达数据中心 GPU 技术路线图
在算力芯片性能与功耗同步提升的同时,由于AI科技技术的演进与应用创新应用,数据量增加与算力需求共同推动了AI算力芯片市场规模的增长。
由上文可知,2015年到2024年全球数据量增加了122 ZB,相应的全球GPU市场规模增加了1120亿美元,GPU产品也经历了从Pascal到Blackwell五种架构的进化。依此推算,在2024年到2030年,全球数据量规模将增加870ZB,对应的全球GPU市场规模将有数倍增长空间。根据中国台湾工研院预估,2030年算力芯片将占据整个半导体应用销售的40%,从而推动全球半导体市场规模在2030年达到1万亿美元,算力芯片是未来全球半导体市场规模增长的主要驱动力。
AI芯片需求大幅增长
根据海外媒体消息,马斯克的初创xAI公司正在构建一个庞大的AI超级计算机Colossus,数据中心仅用19天完成了超过10万块GPU及配套存储和超高速网络的部署(从设计到LLM首次训练总工程用时122天)。数据中心采用抬高地板设计,地板下方是液冷管道,上方是电源,每个计算大厅约有2.5万块GPU,以及相应的存储和高速光纤网络设备。
Colossus的基本构建模块是超微液冷机架,每个机架配备八台4U服务器,每台服务器搭载8块NVIDIA H100 GPU,这样每个机架总共有64块GPU。八台这样的GPU服务器与一个超微冷却剂分配单元(CDU)及其相关硬件构成了一个GPU机架。该集群仍在建设中,未来规模还会进一步扩大,大概扩展到至少100万个GPU,约400亿美元(以每颗GPU 4万美元估算)。
同时,Meta也不甘落后,拟购入35万块H100 GPU,旨在为其强大的Llama 4 AI模型注入更澎湃的算力。据LessWrong网站的估算,到2025年,微软、谷歌、Meta、亚马逊以及新兴的xAI这五大巨头,在GPU/TPU的持有量上,若换算成等效H100的数量,将惊人地超过1240万台。这一数字不仅彰显了科技巨头们在算力“军备竞赛”中的持续投入,更预示着一场前所未有的AI算力盛宴正在席卷全球。
除几大巨头外,全球主要国家或区域也积极加入到AI科技浪潮中,投入大量预算兴建数据中心。根据Fortune Business Insights数据,2023年全球数据中心数量为343万,预计到2027年增长到约360万,2023-2027年复合增长率约为1.2%。从建造规模看,2023年全球数据中心建造市场2599.7亿美元,预计2028年增长至3482.3亿美元,2023-2028年复合增速为7.6%。
2023 年全球数据中心建造规模2599.7 亿美元
AI 大模型的崛起推动高速率数通光模块的加速放量,特别是在电信和数通市场。由于云服务龙头增加对 AI 集群的投资,高端光通信需求上升,400G 和 800G 光模块的组件供不应求。LightCounting 预测 2024 年以太网光模块销售额将同比增长近 30%,各个细分市场也将逐步恢复增长。在经历 2023 年全球光模块市场规模同比下降 6%后,2024-2028 年的复合年增长率(CAGR)预计将达到 16%。光模块龙头公司 Coherent 表示,由 AI 驱动的全球 800G、1.6T 和 3.2T 数通光模块,相关行业规模在 2024-2028 年的 5 年 CAGR 可能超过 40%,从 2023 年的 6 亿美元增长至 2028 年的 42 亿美元。
2018-2028E 全球光模块销售额(百万美元)
数据中心需要大量的电力能源支撑,根据EIA统计数据,2022年全球数据中心、加密货币和人工智能(AI)共消耗约460 TWH的电力,约占全球总电力需求的2%。数据中心是支持数字化的重要基础设施,与供电基础设施相辅相成。随着数据量的不断增加,需要扩展和发展数据中心来处理和存储这些数据。数据中心行业的未来趋势复杂多变,技术进步和数字服务快速发展。根据部署速度、效率提升范围、以及人工智能和加密货币趋势,EIA预计到2026年,数据中心、加密货币和人工智能的全球电力消耗将达到620至1050TWh之间,中性情况下需求将超过800TWh,相比2022年的460TWh接近翻倍。
而EIA的预测可能相对保守,另一国际咨询机构Semianalysis预测2026年AI数据中心电力容量达到40GW,对应每年约350TWh。Semianalysis根据其对于Hyperscaler的跟踪,预计到2030年,AI将推动数据中心用电量占全球发电量的4.5%。根据semianalysis预测,全球数据中心关键IT电力需求将从2023年的49GW增长至2026年的96GW,其中AI数据中心将消耗约40GW(相较EIA的预测更加乐观)。未来几年,数据中心电力容量增长将从12%-15%的复合年增长率加速至25%的复合年增长率。
数据中心在消耗的庞大电能时,也会产生巨大的能耗,根据《绿色高能效数据中心散热冷却技术研究现状及发展趋势》统计,数据中心能耗主要由IT设备能耗、散热能耗、供配电能耗和照明及其他能耗组成,其中,IT设备能耗、散热能耗是主要的能耗,散热能耗占比达到43%。
根据统计数据,电子元器件温度每升高2℃,可靠性下降10%,温度达到50℃时的寿命只有25℃时的1/6,因此数据中心及AI芯片厂商不断探索散热技术以保证其优质的产品和服务性能。同时,由于环保意识高涨,各国对数据中心PUE(Power usage effectiveness,电源使用效率)规范日益严格,同时跨入AI世代GPU运算芯片TDP(Thermal Design Power,热设计功耗)持续向上堆栈,使得数据中心的散热设计变得至关重要。
以英伟达2024年四季度量产的GB200 NVL服务器为例,单颗B200芯片TDP 1200W,GB200系统芯片TDP更上看2700W(1个Grace CPU 2个B200 GPU),现行的3D VC气冷散热解热瓶颈约在1000W,超出1000W以上采液冷散热效果较佳,因此需要全面升级液冷散热,并配合其他散热技术共同作用。2025年,英伟达的B300芯片TDP进一步扩大到1400W,AMD GPU Server芯片下世代功耗预期也将突破千瓦水平。相对应的英伟达下一代芯片单机柜能耗或超过1MW,预计2028年左右推出Rubin Ultra AI GPU峰值机架密度功耗最高或超过1000kW,散热已经成为AI芯片发展的关键。
一般而言,热量的传递主要有三种:导热、对流和辐射。根据热的传递方式,散热系统可以由风扇、散热片(如石墨片、金属散热片等)和导热界面器件组成。以普通的CPU风冷散热器为例,其工作原理是CPU散热片通过导热界面器件与CPU表面接触,CPU表面的热量传递给CPU散热片,散热风扇产生气流将CPU散热片表面的热量带走。而对于高效散热设备而言,相变换热是一种极其高效的热量传递方式。相变换热涉及物质在固态、液态和气态之间的转变,当物质吸收或释放潜热时,就会在不改变温度的情况下发生相变。
以数据中心为例,由于其能耗非常庞大,需要有43%的热能能耗散掉,所以一般都是多种散热方式通用。根据亚太芯谷科技研究院,以距离核心发热源远近进行划分,散热可以分为三种类型:芯片级热管理、装置级热管理、基地级/终端产品热管理。
其中:
芯片级热管理散热技术,一般是解决热量从芯片内部传导到外部,其主要散热技术包括微通道(TSV)散热、热管散热、VC-Lid 均温板散热和3D VC散热、金刚石(钻石)散热、石墨烯散热等。
装置级热管理散热技术,一般是指对服务器或移动电子设备进行散热,其散热技术主要包括风冷、液冷,其中液冷技术又可以细分为冷板冷却、喷淋冷却、单相浸没式液冷、两相浸没式液冷等技术。
基地级/终端产品热管理散热技术,一般是指对数据中心或终端产品的散热,终端产品包括汽车、机器人等,其散热技术主要包括自由空气冷却、冷热通道冷却、蒸发冷却和地热冷却技术等。
在市场方面,根据 R&M 数据,2024 年全球数据中心热管理市场规模为 165.6 亿美元,到 2029 年预计将增长至 345.1 亿美元,2024-2029 年 CAGR 为 15.8%。从技术渗透率来看,Omdia 预计 2023 年数据中心风冷和液冷市场规模为 76.7 亿美元,其中液冷的渗透率约为17%。
另外,在消费电子散热市场方面,随着 AI 技术的加入,消费电子的算力需求不断增加,相应的散热需求也显著提升。2023 年,全球智能手机出货量达到了11.7 亿台,平板电脑为 1.3 亿台,电脑出货量为 2.5 亿台。根据 Counterpoint Research 的数据显示,预计到 2027 年,AI 手机的市场占比将达到 43%。目前,PC 散热器的价值约为 100-200 元(包括 VC 风扇),高于早期 PC 散热器的价值(约 30-60 元,热管 风扇),因此预期2030全球消费电子热管理市场规模可达到380亿美元。
因此,数据中心及消费电子的热管理市场规模在2030年有望达到约770亿美元。
芯片级散热技术是直接在芯片表面或芯片内部实施的散热措施,可以更直接、更快速地将热量从热源(芯片)传递出去,由于空间狭小、环境复杂,所以对散热材料及器件结构有着极高的要求。
根据热源到换热结构的热传导路径不同,芯片级散热技术一般可以分为三种类型:
第一种为远端冷却架构散热技术,芯片与热沉冷板之间通过2层TIM进行热传导。
第二种为近芯片冷却架构散热技术,随着热流密度与芯片面积的增加,远端冷却能力越发不足,因此直接将芯片通过1层TIM与热沉冷板贴合,形成近芯片冷却架构。相比于远端冷却架构,由于减少了1层TIM与热扩散层,近芯片冷却架构进一步提高了可冷却的热流密度。
第三种为芯片内嵌冷却架构散热技术,即通过消除芯片和热沉冷板之间的TIM,直接在芯片衬底上刻蚀微通道,将流体引入其中,达到冷却效果。
由于本身优秀的热导性能,目前市场上的主流芯片级散热技术主要包括热管、VC均温板、3D VC、金刚石(钻石)、石墨烯散热技术等。
芯片级散热介质分类比较
热管,也称为Heat Pipe,是一种高效的传热器件,它能够在较短的时间内将热量从一端传输到另一端。它的核心原理是通过相变和毛细作用进行热量传递。热管内部包含工作液,当热量输入端(称为蒸发段)受热时,工作液吸收热量并迅速蒸发形成气体。随后,气体沿着管内移动到冷却端(称为冷凝段),在此过程中冷凝成液体并释放热量。液态工作液通过毛细作用或重力返回到蒸发段,完成一个完整的循环。
热管工作原理
热管技术的发展历史可以追溯到20世纪中叶,1944年,美国通用发动机公司的R.S.Gaugler在美国专利(No. 2350348)中提出了热管的工作原理。1963年,美国Los Alamos国家实验室的G.M.Grover重新独立发明了这种传热元件,并对其进行了性能测试实验,正式将这种传热元件命名为“热管”(heat pipe)。1964年,世界上第一支热管在美国的洛斯阿拉莫斯科学实验室诞生。1972年,中国研制出第一根热管,它是以钠为工质的,随后研制了以氨、水、导热油为工质的热管。
到21世纪后,热管技术的应用重点由航天转移到地面,由工业化应用扩展到民用产品,尤其是微型热管技术发展迅速,被广泛应用于电子装置的芯片、笔记本计算机的CPU等。
热管的导热能力超过所有已知的金属,冷却介质有水、甲醇、丙酮、氨、一氟二氯乙烷、水合二氧化硅等,冷凝端可以用水或空气冷却。热管没有连接芯片的冷却介质连接管路,降低冷却介质在IT设备内部的泄露风险,且没有泵的需求,利用毛细压差驱动气液两相自循环运动而发生热量交换。因冷却结构中没有运动部件,可靠性高。
芯片级热管的结构简单,一般由密闭容器、毛细结构、工作流体组成。根据工作温度范围,一般可以分为深冷热管、低温热管、中温热管、高温热管。
不同种类热管的区别
类别 |
内容 |
深冷热管 |
工作温度范围为-170~-70℃,工作介质(工作液)可采用纯化学元素物质(如氦、氩、氮、氧等)或化合物(如氟利昂、乙烷等)。 |
低温热管 |
工作温度范围为-70~270℃,工作介质可选用水、丙酮、氨、氟利昂、酒精及其他有机物。 |
中温热管 |
工作温度范围为270~470℃,工作介质可选用导热姆(联苯-苯醚共溶体)、水银、铯或硫等。 |
高温热管 |
工作温度在500℃以上的热管,工作介质可选用钠、钾、锂、铅、银及其他高沸点的液态金属。 |
在芯片级散热中,热管一般不单独作为散热器使用,通常嵌入空冷散热器翅片中,利用其高效的相变传热快速地将芯片基板处的热量传递到空气中,达到散热的目的。
热管样品
VC均温板,全称为Vapor Chamber,即真空腔均热板散热技术。VC均温板是一个内壁具有微细结构的真空腔体,通常由铜制成。当热由热源传导至蒸发区时,腔体里的冷却液在低真空度的环境中受热后开始产生冷却液的气化现象,此时吸收热能并且体积迅速膨胀,气相的冷却介质迅速充满整个腔体,当气相工质接触到一个比较冷的区域时便会产生凝结的现象。借由凝结的现象释放出在蒸发时累积的热,凝结后的冷却液会借由微结构的毛细管道再回到蒸发热源处,此运作将在腔体内周而复始进行。
相比热管,VC的导热效率与灵活度更强。铜的导热系数为401W/m·K,热管可以达到5000~10000 W/m·K,而均热板则可以达到20 000~10000 W/m·K,甚至更高。热管是一维导热,其形状及宽度虽受限,但搭配铜板及其他机构件,在系统排列及运用多支热管之弹性大,应用广,具性价比优势。而均热板形状则不受限制,可以根据芯片的布局,设计任意形状,甚至可以兼容处于不同高度的多个热源的散热。
VC均温板的工作原理
因而,VC均温板是一种比热管更先进、更高效的导热元件,尤其在处理高密度电子设备的热管理问题时表现出色。
VC均温板的结构
目前,VC均温板可划分为常规均温板以及超薄均温板。
常规均温板由上下两片铜板以及中间的毛细结构、支撑柱等焊接而成,使用场景一般是高热通量应用。均温板的二维热扩散能力可以帮助高TDP(或超频状态)的CPU高效散热并将温度冷却至安全的工作温度,延长组件以及产品的使用寿命,常规均温板根据具体使用场景又可以细分为CPU均温板、显示屏均温板、笔记本电脑均温板等。
超薄均温板一般是指总厚度在2mm以下的均温板,因为近年智能手机机身总厚度往往在10mm以下,超薄均温板在智能手机散热方案上就发挥着举足轻重的作用。目前市场上对于超薄温板的需求日渐提高,特别是厚度在0.8mm以下的均温板的应用与研发,是近年研究的热点。
常规VC散温均温板示例
超薄均温板示例
在国内芯片级散热行业中,中山仲德科技一直专注于超博高结构强度均温板(HSS VC)的研发,并取得了重大突破,公司采用电化学沉积技术路线来制造VC吸液芯,以自研的“原子堆垛毛细结构”技术为基础开发了新一代VC制程,研制出全球首款高结构强度VC,以及全球第一块高阶芯片封装用高结构强度VC-Lid。
仲德科技自主研发的均温板(VC LID)作为一种高效的散热器件,具有上万的导热系数,远超传统铜盖板,能够快速将热量从热源传导出去,使芯片各处温度趋于一致。在相同加热条件下,VC LID相较于传统铜质LID,其温度变化更快,且能迅速使各处温度均匀,有效应对芯片高功率和热源分布式的散热需求。
为了满足芯片封装对盖板的高强度和耐高温等要求,仲德科技摒弃了传统的物理烧结方式,采用化学增材制造的方式制作吸液芯,并对均温板制造工艺进行了全面改革。独创的“原子堆跺毛细结构技术”,通过电化学沉积的方式,历经11年三代研发,不断优化毛细结构的微观形态,使其孔隙率和毛细性能大幅提升,获得了英特尔、英伟达等客户的高度认可。在制造方面,仲德科技实现了高度智能化的生产,将检测与制造紧密结合,每一道工序都上传至专家系统进行质量检测,结合人工智能技术实时分析性能与工艺参数,动态调整生产工艺,确保产品质量的一致性。
目前,仲德科技已经成功将VC LID的耐高温性能提升至260摄氏度,并有望进一步提高至270摄氏度,以满足芯片封装企业的高标准要求。
前文提到的热管及VC散热均为两相均温技术,其中热管是一维线式均温,VC是二维平面均温,下面介绍的3D VD则是三维一体式均温。
两相均温技术发展趋势
3D VC(三维两相均温技术)是利用热管与均温板蒸汽腔体贯通的散热技术,即通过焊接工艺将基板空腔与PCI齿片内腔相连,形成一体式腔体,腔体内充注工质并封口,工质在靠近芯片端的基板内腔侧蒸发,在远热源端的齿片内腔侧冷凝,通过重力驱动及回路设计形成两相循环,可以实现理想均温效果。
3D VC散热原理示意图
3D VC具有“高效散热、均匀温度分布、减少热点”等解热优势,可满足大功率器件解热、高热流密度区域均温的瓶颈需求,也可以保证获得更强的超频性能以及超频后的系统稳定性。
对比热管/均温板的散热器导热,是把芯片热量先传递至均温板再传至多根热管后再传至FIN,存在接触热阻、焊料以及铜本身的热阻;而3D VC通过三维结构连通下,内部液体相变、热扩散,直接、高效地将芯片热量传递至FIN远端散热。
3D VC 模型图
3DVC的制作工艺比较复杂,良率低,在一定程度上限制了其发展和应用。3DVC制作的核心在于,热管和VC壳体的连接方式,以及内部毛细结构的烧结。
3D VC 的制作工艺
制作工艺:以VC 4~12支热管为例 |
1 、可以先分别VC和热管烧制毛细结构,然后通过钎焊等方式将热管和VC焊接成密闭腔体 。然后进行常规的VC注水抽真空及后续制程。 |
2 、可以先将VC壳体和热管壳体焊接成一体(用钎焊或扩散焊,或者用冲锻或挤压的方式成型为整体结构),再烧制毛细结构,再上下盖焊接成密闭腔体,并进行后续的注水抽真空制程。 |
不同的方式,制作工艺难度不一样,良率和产能及成本也有较大差别。 |
金刚石的热导率是已知最高的材料之一,达到 2000 W/m·K,是硅(Si)、碳化硅(Sic)和砷化镓(GaAs)的 13 倍、4 倍和 43 倍,铜和银 4-5 倍。在热导率要求为 10~200 W/(m·K)之间时,金刚石是唯一可选的热沉材料。
金刚石热导率高达 1000-2000W/m.K
2024年11月,美国Akash Systems公司开发的钻石冷却技术可将GPU温度降低20度, 超频潜力提升25%,因此与美国商务部,签署了一份不具约束力的初步条款备忘录(PMT),并根据《芯片与科学法案》提供1820万美元的直接资助和5000万美元的联邦和州税收抵免。
全球GPU芯片龙头英伟达也开始采用钻石散热GPU进行测试实验,据Diamond Foundry官网,英伟达钻石散热GPU可使AI及云计算性能提升三倍。
另外,华为也在金刚石(钻石)散热领域进行了深度的研究,并发表了多篇专利。
2014年,华为技术团队便与厦门大学电子科学与技术学院于大全教授团队在Journal of Materials Science & Technology上发表了“基于反应性纳米金属层的金刚石低温键合技术”成果。
2023年10月,华为与哈尔滨工业大学联合申请公布一项专利《一种基于硅和金刚石的三维集成芯片的混合键合方法》。通过采用混合键合方法,可以实现硅和金刚石的高效集成,将芯片产生的热量快速地导出,并减少热阻,从而提高芯片的散热效率,提高芯片的性能和可靠性。
2024年12月,华为申请公布使用金刚石散热层的半导体器件专利。在本申请的半导体器件中,钝化层位于第一外延层和金刚石散热层之间,钝化层朝向金刚石散热层的一侧表面设置有凹槽,该结构不仅可以增加金刚石散热层与钝化层的接触面积,从而增加金刚石散热层与钝化层之间的结合力,并且还可以减小栅极与金刚石散热层之间沿半导体器件的厚度方向的热扩散距离,大幅提高半导体器件的散热效率。
金刚石也可以与同、铝等金属混合,制成金刚石铜、金刚石铝等材料。导热系数也能达到800W/(k.m)以上。可以采用MIM(金属粉末注射成型)的工艺制备。
石墨烯是具有单原子层厚度的二维材料,具有极高的导热性。2008年,Balandin课题组6用拉曼光谱法第一次测量了单层石墨烯的热导率,观察发现石墨烯热导率最高可达5300m·K,高于石墨块体和金刚石,是已知材料中热导率的最高值,吸引了研究者的广泛关注。
对石墨烯热导率的研究很快对石墨烯在导热领域的应用有所启发。随着石墨烯大规模制备技术的发展,基于氧化石墨烯方法制备的高导热石墨烯膜热导率可达~2000 W·m-1·K-19。高导热石墨烯膜的热导率与工业应用的高质量石墨化聚酰亚胺膜相当,且具有更低成本和更好的厚度可控性。另一方面,石墨烯作为二维导热填料,易于在高分子基体中构建三维导热网络,在热界面材料中具有良好应用前景。通过提高石墨烯在高分子基体中的分散性、构建三维石墨烯导热网络等方法,石墨烯填充的热界面复合材料热导率比聚合物产生数倍提高,并且填料比低于传统导热填料。
因而石墨烯无论作为自支撑导热膜,还是作为热界面材料的导热填料,都将在电子元件散热应用中发挥重要价值。
目前,石墨烯薄膜散热已在市场上有了应用,华为在其发布的Mate X6手机上就搭载了超高导热石墨烯材料,其导热性能达到2000 W/m·K,散热效率提升33%。
6、液冷散热技术
早期探索:1964 年,IBM 公司研发出世界首款冷冻水冷却计算机 System360,开创了液冷计算机先河。
技术蛰伏与再兴起:2008 年,IBM 发布了液冷超级计算机 Power575。2009 年,Intel 推出了矿物油浸没散热系统。
国产厂商崛起:2011 年,中科曙光率先开始了服务器液冷技术的探索与研究,并于 2013 年完成了首台冷板式液冷服务器原理机和首台浸没式液冷原理验证。2015-2018 年,中科曙光、华为、浪潮信息、联想、阿里巴巴等一众国产厂商先后实现了液冷服务器大规模商业应用项目的落地。
快速发展阶段:近年来,随着数据中心的 ICT 设备芯片功率和功率密度不断增加,以及人工智能应用需求的爆发,液冷技术进入快速发展期1。
技术路线方面
单相冷板:冷却液为液体,一般为水基冷却液,如去离子水、乙二醇水溶液等。应用最为广泛,基本不影响数据中心机柜架构及基础设施。
两相冷板:冷却液在冷板模组内部存在液态和气态两种状态,通过相变潜热提升散热能力,但对系统气密性要求更高,设备和系统维护更复杂。
单相浸没:将 ICT 设备浸泡在介电冷却液中进行散热,介电冷却液一般为氟化液或油类,分为 Tank 单相浸没、节点单相浸没、节点喷淋浸没等方式。
两相浸没:使用的介电冷却液为两相冷却液,通过汽化潜热带走芯片热量,散热能力强,但设计具有挑战性,成本也相对昂贵。
市场应用方面
数据中心领域:冷板式液冷因成熟度高、运维难度低,目前在数据中心液冷市场占据主导地位,约占 90% 的市场份额。但随着单机柜功率的不断提升,浸没式液冷的应用有望逐步增加。
其他领域:在超算和高性能计算领域,全浸没式液冷式服务器有望成为未来技术趋势。英伟达也表示未来所有 GPU 产品的散热技术都将转为 “液冷”。
技术优化方向
散热能力提升:随着芯片功率的不断提高,液冷技术将不断优化,以提供更强的散热能力,满足下一代 ICT 设备芯片的散热需求。两相冷板和两相浸没方案的优势可能会逐渐显现。
可靠性增强:单相冷板会进一步提升方案可靠性,降低泄漏风险;浸没液冷会在冷却液兼容性、CDU 等配套设备以及机房级方案的标准化方面持续推进,以提高整体可靠性。
市场发展趋势
市场规模增长:据 IDC 预计,2022-2027 年,中国液冷服务器市场年复合增长率将达到 54.7%,2027 年市场规模将达到 89 亿美元。
材料创新:开发更高导热率、更低成本的冷却液和冷板材料。
标准化程度提高:行业标准的建立和完善将是未来液冷技术发展的重要方向,提高产品之间的兼容性,降低成本,推动液冷技术的普及和应用,促进行业的规模化发展。
应用场景拓展:除了数据中心、超算和高性能计算领域,液冷技术还将在人工智能、5G 通信、电动汽车等更多领域得到广泛应用。
智能化:结合物联网和AI技术,实现液冷系统的智能监控和优化。
绿色环保:推广使用环保型冷却液,减少对环境的影响。
成本下降:随着技术进步和规模化生产,液冷技术的成本将进一步降低。
(1)芯片内微通道散热
芯片内嵌冷却在高性能芯片热管理方面具有巨大的应用潜力,与远端冷却和近芯片冷却相比,其可使总热阻显著降低。最早的芯片内嵌冷却由斯坦福大学的TUCKERMAN和PEASE在 1981 年提出,为了增强对流换热系数,在硅衬底上加工了宽度为 50 μm的微通道结构,在 790 W/cm2的热流密度下,芯片的温升被控制在 71℃以内。2022 年,北京大学提出了一种双 H型芯片歧管内嵌冷却结构,采用硅-硅键合工艺集成,可针对面积为400mm2、功耗为417W 的芯片,在温升为 22.2℃的情况下,实现了对 104.3 W/cm2热流密度的冷却。另外,洛桑联邦理工学院的研究人员将嵌入式冷却的想法提升到了一个新的水平。他们从一开始就将电子元件和冷却装置设计在一起,在芯片内部设计了三维冷却通道,就在晶体管的有源部分下方。距离实际产生热量的地方只有几微米,这样做的目的是防止热量在整个设备中扩散。
双H型芯片歧管内嵌冷却结构
洛桑联邦理工的嵌入式冷却设计
(2)芯片内 TSV 散热
3D-IC 作为突破平面系统级芯片(SoC)极限的关键路径,日益成为尖端设计的主流趋势。对于复杂的3D芯片,必须通过以特定方式放置TSV(即穿过硅片的铜连接)来创建热通道,以帮助均匀散热。在AMD MI300等芯片中,通过TSV将13个芯片堆叠在一起,作为一个大芯片。TSV可以提高性能、降低延迟、提高冷却效果。但TSV是由铜制成的,其导热性能受限,因此对于更高的散热要求,仅靠TSV无法完成。
基于TSV放置优化的3DIC热管理示意图
热界面材料(TIM)是用于涂敷在散热器件与发热器件之间,降低它们之间接触热阻所使用的材料的总称。由于器件制造公差和表面粗糙度的存在,器件之间通常会有微小的空隙。这些空隙含有空气,而空气是热的不良导体,常温下导热系数仅为0.026W/(m·K),因此就造成了比较大的接触热阻。因此,导热界面材料(TIM)被用来填补这些空隙,排出空气,提供更好的热传导路径,降低界面热阻,从而提升散热效率。芯片通过TIM与热沉进行贴合,TIM在远端冷却和近芯片冷却中起到十分关键的作用。目前针对TIM的研究是多路并行的,常见的材料主要分为聚合物和金属2种类型。
AI终端设备中的高功耗芯片TIM散热路径示意图
TIM 的开发路线
目前导热界面材料主要有四类:
(1)导热灌封胶:用于模块的整体封装;
(2)导热硅脂(导热膏):具有一定流动性或呈黏稠状的膏状物, 用于填充微小间 隙,比如将膏体涂覆在 CPU 和散热器之间,发热堆和壳体之间,将空气挤压出去,形成散热通道;
(3)导热胶垫:是一种柔性可压缩的弹性材料,在施加一定压力的情况下,能很 好地顺应接触不规则的表面,填补固体间的空隙, 而又不会对元器件造成污染,用于电子电器产品的控制主板、LED 散热、电机内外部垫脚、锂电池热管理等;
(4)导热相变材料:在常温时处于固态,在吸收功率器件热量后,达到一定温度才融化为液态,因此可以很好地浸润固体界面,从而减少热阻,它既能吸收热量,又有良好的传热性,同时克服导热硅脂和导热胶垫的缺点,既解决了涂抹硅脂操作难的问题,也可改善导热胶垫因为厚度和界面热阻带来的导热效果较差的问题。
三、市场规模与增长趋势
算力器件功耗提升叠加能耗管控趋严驱动液冷需求增长。芯片TDP(热设计功耗)350W通常被认为是风冷和液冷分水岭,AI算力高需求加速芯片迭代,性能升级的同时功耗显著增长,同时带动数据中心单机柜功率增加,传统散热范围受限。英伟达在GTC2024上发布的B200芯片满负荷运行时热输出功率高达1200W,DGX B200 8卡服务器功耗接近15kw,同时推出GB200 NVL72液冷机架系统。2024年7月发改委等四部门印发《数据中心绿色低碳发展专项行动计划》,提出到2025年底,全国数据中心平均PUE降至1.5以下,新建及改扩建大型和超大型数据中心PUE降至1.25以内,国家枢纽节点数据中心项目PUE不得高于1.2,因地制宜推动液冷等高效制冷散热技术,高自然冷源利用率,明确新建及改扩建数据中心采用GPU单位算力能效水平。国产AI芯片受工艺制程与良率影响,能效水平仍有提升空间,对设备散热能力提出更高要求,液冷具有低能耗、高散热、低噪声、低TCO等优势,有望迎来快速发展。
AI 芯片军备竞赛将持续推动产品升级,中长期供给或将多元化。中短期看,AI 模型发展、竞争仍将推升 AI 芯片出货量和规格;长期看,AI 芯片需求将注重投入产出比和总拥有成本(TCO),重心预估将从 AI 大模型训练转向 AI 垂直模型训练和 AI 推理。根据 Yole 报告,AI 服务器(含 GPU 及其他加速器)2028 年渗透率有望从 2023 年的接近 10%增至超过 18%,其中约 70%-75%为 GPU 服务器。
加速器服务器规模及 GPU 服务器占比(左侧百万部;右侧 %)
摩尔定律趋缓,芯片算力功耗齐升。IDC测算2022年中国智能算力规模约260EFLOPS(FP16),2027年将增至1117EFLOPS,2022-2027年CAGR达34%。算力高需求带动AI芯片加速迭代,性能升级的同时功耗显著增长,2016年-2022年,CPU平均功耗从100-130W提升至300-400W,GPU/NPU由250W提升至500W,英伟达单颗H100的TDP(热设计功耗)最高达700W,最新发布B200采用Blackwell架构,功耗达1000W,由2个B200 GPU和1个Grace CPU组成的GB200解决方案功耗高达2700W,散热路线由风冷转向液冷。TDP 350W通常被认为是风冷和液冷的分水岭,预计未来3年内大多数最新一代处理器TDP将超过400W,超过风冷散热能力范围。
随着芯片技术的不断进步,芯片的性能日益提升,但其功耗也随之增加,这使得芯片散热市场规模呈现出持续增长的趋势。据相关数据显示,2024年全球数据中心热管理市场规模为165.6亿美元,预计到2029年将增长至345.1亿美元,2024-2029年的复合年增长率(CAGR)为15.8%。从技术渗透率来看,Omdia预计2023年数据中心风冷和液冷市场规模为76.7亿美元,其中液冷的渗透率约为17%。在消费电子领域,2023年全球智能手机出货量11.7亿台,平板电脑出货量1.3亿台,电脑出货量2.5亿台,全球消费电子热管理市场规模预估为309亿美元。预计到2030年,全球数据中心热管理市场规模将达到更高水平,新兴芯片散热市场规模也将显著增长,其中钻石散热和VC散热等技术有望占据更大市场份额;2030年,全球芯片级散热市场规模将达到400亿美元,年复合增长率为31.4%。
芯片级散热产业发展预估2024-2030
主要企业及其竞争优势
台积电
在芯片级散热市场中,台积电是一家具有重要影响力的企业。其在散热技术研发方面投入巨大,拥有多项先进的散热技术。例如,在2021年针对高性能芯片提出了两种近芯片冷却方案,一种是在芯片与硅微通道之间采用氧硅键合进行集成,可在特定温升和功耗下实现有效冷却;另一种是片上水冷技术,能满足不同参数芯片的散热需求。2022年又提出浸没式两相冷却方案,将浸没式冷却应用于高功率封装上,热阻低,可在一定温升下实现高功率密度的冷却,且该方案在电源使用效率方面表现优异,有望成为未来数据中心或超算中心主流的冷却方式之一。
英伟达
英伟达在芯片散热领域也占据着重要地位。其推出的基于直接芯片冷却技术的A100 800G PCIe液冷GPU,较风冷版本性能相当,但电力节约30%左右,单插槽设计节省最多66%的机架空间。2024年发布的GB200 NVL72,单功率约120kw,采用液冷系统设计,降低了成本和能耗。此外,英伟达还率先采用钻石散热GPU进行测试实验,性能显著提升,这使其在高端芯片散热市场具有较强的竞争力。
英特尔
英特尔不断探索新颖的散热解决方案以应对下一代芯片的热挑战。其研究人员通过“新材料和结构革新”,涵盖了从3D均热板的改进和射流液体冷却,以及浸没式冷却相关的优化设计等。例如,计划通过改进的沸腾涂层来促进两相冷却中的成核点密度,提高均热板工质的核沸腾能力,并降低接触热阻,还拟大幅扩展超低热阻的3D均热板的应用范围,这些举措有助于英特尔在芯片散热市场保持领先地位。
日月光
日月光半导体制造股份有限公司在2024年10月公布的“封装结构”专利,引入了一种第一热电结构,具备温度感测模式和制冷模式。该热电结构能够穿入介电层,贴近芯片的第一表面,从而在制冷模式下对芯片提供有效的冷却。这一独特的技术创新为其在芯片散热市场赢得了竞争优势,能够更好地满足高性能计算设备的散热需求。
国产芯片
国产AI芯片快速发展,提高散热能力要求。国产AI芯片整体处于起步阶段,华为、寒武纪、海光信息等持续升级芯片性能,完善生态建设,缩小与国际领先厂商差距,海外供应链不确定性增强背景下,国产算力替代有望加快,华为910B性能可对标英伟达A100。对比英伟达B200和A100,分别采用4nm和7nm制程,B200算力(FP16)约为A100的7倍,功耗仅为其2.5倍,因此我们认为受制工艺制程与良率,国内AI芯片能效比或低于海外领先厂商,后续随着芯片算力持续提升,散热需求有望显著增长。
头部厂商引领,产业化进程加速
液冷产业链上游包括冷板、CDU等零部件厂商,中游为液冷服务器及基础设施,下游面向泛互联网、电信、泛政府、金融等液冷数据中心用户,当前服务器厂商依托IT核心部件掌握产业链核心价值控制点,上下游协同加强,推进生态建设,23年6月三大运营商联合发布《电信运营商液冷技术白皮书》,提出三大运营商2024年新建数据中心项目10%规模试点应用液冷技术,2025年50%以上数据中心项目应用液冷技术。但行业现阶段仍然存在技术路径多样、产品规格质量各有差异,各液冷模块兼容性较差等问题,多采用一体化交付模式,即液冷整机柜由同一厂商自定标准集成设计开发交付,随着行业标准推进,解耦交付模式有望凭借部署灵活、降低TCO等优势进一步推广。
以上部分资料转载“热设计”网络平台,文章仅仅用于交流学习版权归原作者。如有侵权请告知立删。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com