本站综合报道 消息称,NVIDIA正在为中国市场研发一款名为“B30”的降规版AI芯片,这款芯片将首度支持多GPU扩展,允许用户通过连接多组芯片来打造更高性能的计算集群。B30芯片预计将采用最新的Blackwell架构,使用GDDR7显存,而非高频宽内存(HBM),也不会采用台积电的先进封装技术。
不少人认为多GPU扩展能力指的是NVLink,但NVIDIA已在其消费级GPU芯片中取消了NVLink支持,因此B30是否支持NVLink目前还不能确定。有消息称B30芯片的多GPU互联功能可能基于NVIDIA的ConnectX-8 SuperNICs技术,这一技术曾在Computex 2025上展示,用于连接RTX Pro 6000 GPU。
NVIDIA ConnectX-8 SuperNIC是业内首款在单个设备中集成支持 PCIe Gen6 的交换机和超高速网络的 SuperNIC。ConnectX-8 专为现代 AI 基础架构设计,可提供更高的吞吐量,同时简化系统设计并提高功耗和成本效益。
NVIDIA ConnectX-8 正在重新定义基于 PCIe 的系统的可能性。通过将 PCIe Gen6 交换机和高性能 SuperNIC 集成到单个集成设备中,ConnectX-8 可简化服务器设计,减少组件数量,并解锁现代 AI 工作负载所需的高带宽通信路径。从而打造更简单、更节能的平台,同时降低总体拥有成本 (TCO) 并实现出色的性能可扩展性。
此外,ConnectX-8 SuperNIC 还可在基于多 GPU 的平台中实现增强的机密计算能力。
B30与H20存在性能差异,主要体现在几个方面:1、显存技术差异,H20芯片采用HBM3显存,带宽高达4.0TB/s,而B30芯片预计使用GDDR7显存,带宽可能降至1.7TB/s左右。HBM3在带宽和能效比上显著优于GDDR7,尤其在处理大规模数据集时,H20的显存性能优势将更明显。
2、互联技术对比:H20支持NVLink技术,卡间互联带宽高达900GB/s,适合构建大规模计算集群。B30芯片的多GPU扩展功能可能依赖ConnectX-8 SuperNICs技术,而非NVLink,其互联带宽和延迟可能不及H20,在需要低延迟通信的场景中表现可能受限。
3、性能定位差异:H20芯片在FP8和FP16精度下的Tensor Core性能分别为296 TFLOPS和148 TFLOPS,适用于高精度计算任务。B30芯片作为降规版,单芯片算力可能低于H20,但通过多GPU扩展可提升整体性能,适合对成本敏感但需要一定扩展性的应用场景。
4、应用场景适配:H20芯片在垂类模型训练和推理任务中表现优异,尤其适合需要高带宽和低延迟的场景。B30芯片则更侧重于通过多GPU扩展满足中小规模计算需求,可能在性价比和灵活性上更具优势,但单芯片性能可能无法与H20媲美。
与华为昇腾910等国产芯片相比,B30系列在显存容量上占优,但价格和能效比可能处于劣势。B30售价预估为6500-8000美元,较H20的1-1.2万美元降低约40%,但仍高于部分国产芯片。
B30在中国市场的发展面临挑战。如技术限制,显存带宽和接口简化导致性能下降,可能无法满足高端客户需求,长期来看,技术限制可能削弱NVIDIA在中国市场的竞争力。市场接受度上,中国客户对性能和成本的平衡较为敏感,B30需通过实际表现证明价值。国产芯片的崛起可能分流部分市场需求,B30需在生态和价格上持续优化。
另外,出口管制政策可能进一步收紧,影响B30的供应链和市场份额。中国对自主可控技术的重视可能推动国产芯片替代,B30需应对政策不确定性。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com