/ ai资讯

3.5D Chiplet技术典型案例解读

发布时间:2025-03-03 11:46:10

大模型训练集群的有效算力

DeepSeek的创新引领大模型基座模型向MoE专家模型进一步演进,未来大模型的参数将从千亿级别向万亿参数迈进,开启人工智能的新纪元。在这一过程中,端侧推理模型的诞生离不开原研基座模型的精心训练。随着模型参数的不断扩大以及AI模型的百舸争流,训练侧所需的算力也将进一步激增。由此所依托的AI基础设施的有效算力已成为下一代AI应用的坚实基石。

智算集群的有效算力由包括单个加速卡的基础算力、集群规模、Scale Out与Scale Up所共同构筑的集群线性加速比以及集群有效运营的时间等多个维度因素构建。在不设资源限制的情况下,我们希望拥有最强大的单个计算卡系统来运行整个AI任务,因为,AI任务作为一个单一实体运行。因此,直接获取最大能力的GPU/xPU是符合逻辑的选择。

3D IC : 下一代AI芯片的加速引擎

后摩尔时代,算力的增长和芯片的性能提升之间面临着内存墙、功耗墙、面积墙等几大瓶颈, 采用基于先进封装的3D Chiplet堆叠芯片带来的重大升级将有效解决这些瓶颈。

3D-IC 的优势可概括为以下几点:

1可以降低成本,Chiplet的解耦特性让先进制程节点更灵活,让非所有功能(包括模拟和存储器)都需要迁移到先进制程节点;

2更容易满足高速互连和带宽要求,帮助先进存储器技术达到 100Gbps的速度;

33D-IC 支持更小的尺寸,可以节省电路板和终端产品的空间;

43D-IC 可以降低功耗,因为不再需要大型驱动器。3D 堆叠可以使用小型 I/O 驱动器,功耗更低。此外,减少电阻-电感-电容 (RLC)寄生参数也有助于进一步降低功耗;

5减少了跨封装之间的互连,可以实现更快的性能和更好的功耗表现。

3.5D技术的引入将显著提升AI集群的计算密度和功耗效率,使得数据中心能够以更低的能耗处理更大的工作负载。这对于应对生成式AI模型的指数级增长需求至关重要。本期主要介绍几个3.5D Chiplet典型案例,分享3D IC设计架构趋势。

典型案例1

AMD MI300 系列开创3.5D IC先河

(来源:AMD)

AMD是首批采用3.5D IC设计及工艺的芯片公司,2024年发布的MI300 X GPU加速器,基于新一代CDNA计算架构。其采用台积电5nm/6nm FinETH技术,总共1530亿个晶体管。

(来源:AMD Whitepaper)

XCD计算模块:共计8个XCD加速计算模块,每一个XCD拥有38个CU计算单位,所以总共304个计算单元。

IOD互联模块:每两个XCD为一组,在它们底部放置一个IOD模块,负责输入输出与通信连接,总共4个IOD提供了第四代Infinity Fabric连接通道,总带宽最高896GB/s,还有多达256MB Infinity Cache无限缓存。该模块实际上属于一种3D Base Die,通过TSV硅通孔技术与XCD计算Die模块形成高密度互联。

HBM 部分:IOD与XCD外围一共有8个HBM3共192GB内存(每个HBM3内存大小为24GB)。IOD部分又一次采用的是6nm工艺,XCD部分则使用5nm工艺实现计算与IO芯粒解耦,这也是AMD公司常用的一种IO Die芯粒技术。

(来源:知乎@sazc)

封装工艺:上图显示的是MI300A APU的封装工艺,两者区别主要在计算Die部分,APU系列是异构芯粒技术同时包含GPU与CPU功能。但在封装工艺上与MI300X雷同。

8个HBM与其他芯粒使用2.5D先进封装工艺进行互联,而IOD模块(Base Die)与XCD (MI300A还包括CCD)之间直接通过3D TSV堆叠封装工艺互联。

因此,MI300系列无论是A系列还是X系列制造工艺同时覆盖2.5D和3D先进工艺,总称3.5D混合封装。

(来源:AMD)

Scale Up互联简介:AMD Instinct MI300X 加速器提供了采用 UBB 业界标准 OCP 平台设计的普适性解决方案,支持将 8 个 GPU 整合为一个性能主导型节点,并且具有全互联式点对点环形设计,单一平台内的 HBM3 显存总计可达到 1.5 TB提供足以应对各类 AI 或 HPC 工作负载部署的性能密集型解决方案。

典型案例2

CPO带动Scale Out 互联进军百万卡集群时代

规模生成式 AI 模型(如 DeepSeek,Grok3 系列等)的兴起,对计算能力的需求呈现出了爆炸式增长。训练这些复杂的模型往往需要庞大的计算资源,动辄依赖于 100,000 个甚至 100 万个 XPU 的大规模集群。近期才发布的Grok 3模型,马斯克预计下一代将搭建百万卡AI数据中心,随着大模型军备赛在DeepSeek背景下展开地更加剧烈,新的互联技术必须为未来百万卡集群的互联构筑可靠的基础。

(图:各国AI大模型军备赛进行时)

Scale Out互联甚至是更大规模的GPU HBD高带宽域光进铜退的趋势越发明显,一种在2018年前后就被提及的光互联技术CPO随着AI对训练的极高要求演进速度加快。

如果要在长程范围集成更强大的算力/存力(Scale Out互联),就需要借助更高带宽的光互连技术。这也是为何目前光模块在计算集群中广泛使用的重要原因。集群要上升到百万卡互联规模,光互联技术将发挥重要作用,传统光模块芯片和交换机芯片在PCB上的电信号传输以及GPU卡间互联的信号损耗、功耗都远大于单个Die to Die 互联。目前,光模块成为整个大型集群训推时出现故障延迟的主要硬件之一。

(来源:公众号光通信女人)

CPO技术可以以解决射频损耗的方式,将CPO光模块与交换机主芯片ASIC专有集成电路芯片封装在一起,降低电信号的互联距离,从而降低射频损耗。

(来源:公众号光通信女人)

目前产业界都在研究晶圆级封装工艺,2024、2025年基于晶圆级扇出式结构,在逐步克服工艺难点,接近商用。上图我们可以看到基于晶圆级别的3D TSV工艺实现相比其他工艺实现了更高的互联密度。

PIC(硅光芯片)通过与EIC(电芯片)进行3D堆叠,从而实现电连接更短、尺寸小、功耗低且高带宽密度的性能。在此配置中,PIC 位于 EIC 顶部。然而,在 EIC 中创建 TSV 可能具有挑战性,因为它通常需要在先进的晶圆节点上制造。为了克服这个问题,往往采用晶圆级扇出工艺,形成高铜柱以实现与顶部 PIC 的垂直互连。由此产生的光子 FOPOP 在光耦合方面表现出色,因为 PIC 的悬垂部分允许光边缘耦合。

实际上,ASIC与CPO的共同封装同样属于一种3.5D IC技术,从光芯片内部通过3D堆叠实现高互联的密度,更佳的传输性能。在交换机芯片侧,CPO OE Chiplet封装在ASIC芯片周围形成一个系统级的IC。以博通的典型CPO方案为例,整体封装结构为CoWoS,计算Die(ASIC)通过Interposer/Package Substrate与CPO互连,互联接口为高速IO(例如Serdes/D2D)。

(来源:Broadcom CPO )

目前,Nvidia也在研究基于硅光集成的CPO光学,并预计2025 Q3针对一款IB交换机启动CPO方案的验证。产业界更多厂家也在不断研究并推出CPO光模块样机如Cisco、博通、Marvell都推出了基于CPO的交换机方案。

典型案例3

博通下一代3.5D IC大规模提升单卡算力

去年底Broadcom 推出了其 3.5D eXtreme Dimension 系统级封装 (3.5D XDSiP) 平台,该平台适用于适用于 AI 和 HPC 工作负载的超高性能处理器。新平台依赖于 TSMC 的 CoWoS 和其他先进封装技术。它使芯片设计人员能够构建 3D 堆栈逻辑、网络和 I/O 小芯片以及 HBM 内存堆栈的系统级封装 (SiP)。该平台允许使用多达 12 个 HBM 模块实现高达 6000mm² 的 3D 堆叠硅的 SiP。首批 3.5D XDSiP 产品将于 2026 年推出。

博通首次使用F2F(面对面)将一个逻辑Die堆叠到另外一个逻辑Die上;这种使用无凸块混合铜键合直接连接顶部和底部硅芯片的上层金属层的面对面 (F2F) 堆叠方法,是博通的 3D XDSiP 平台的主要优势。据 Broadcom 称,F2F 方法可实现高达 7 倍的信号连接和更短的信号路由,将晶粒间接口的功耗降低 90%,最大限度地减少 3D 堆栈内的延迟,并为设计团队提供额外的灵活性,成就更低功耗更低延迟的ASIC芯片性能。

(来源:Broadcom)

此外,它巧妙地融合了 3D 硅片堆叠与 2.5D 封装技术的精髓。该3.5D xPU计算Die与逻辑Die Face to Face进行键合,每个逻辑Die与多组HBM互联,又与IOD通过D2D互联。(更多阅读:Chiplet&互联专题:AI时代变革下 3D IC 芯粒技术的最新应用趋势解读)

(来源:Broadcom)

总的来说,3.5D 集成技术通过将 3D 与 2.5D封装相结合,能够在不单纯依赖制程工艺提升的情况下,实现芯片性能的显著提升、功耗的有效降低以及成本的合理控制,从而成为了下一代 XPU 发展的必然趋势。预计博通将继续加大市场推广力度,针对不同客户的需求,提供定制化的 3.5D XPU 解决方案。

3.5D IC技术是Chiplet小芯片发展旅程中的又一重要里程碑,通过独特的技术架构和卓越的性能表现,为 AI 芯片的发展开辟了新的道路。在技术原理层面,其高密度互连、低功耗设计、多功能集成以及紧凑尺寸与稳定性等核心要素相互协同,构成了强大的技术竞争力。

奇异摩尔自2021年成立以来先从片内互联产品系列研发出发,目前可以提供包括2.5D Central IO Die及3D Base Die等AI单个计算卡算力扩展芯粒方案,未来通过持续性的行业标准共建、产业链生态的互联互通,相信在不久的将来,随着国产Chiplet技术的突破,我们将与产业链伙伴为国产AI算力的释放潜能铺就一条宽广的道路,共同书写AI智能时代的辉煌篇章。

关于我们

AI网络全栈式互联架构产品及解决方案提供商

奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。

我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale out网络的AI原生智能网卡、面向南向Scale up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。

奇异摩尔的核心团队汇聚了来自全球半导体行业巨头如NXP、Intel、Broadcom等公司的精英,他们凭借丰富的AI互联产品研发和管理经验,致力于推动技术创新和业务发展。团队拥有超过50个高性能网络及Chiplet量产项目的经验,为公司的产品和服务提供了强有力的技术保障。我们的使命是支持一个更具创造力的芯世界,愿景是让计算变得简单。奇异摩尔以创新为驱动力,技术探索新场景,生态构建新的半导体格局,为高性能AI计算奠定稳固的基石。

  • 人工智能 人工智能 关注

    关注

    1799

    文章

    48002

    浏览量

    241765

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com