/ ai资讯

寒武纪基于思元370芯片的MLU370-X8 智能加速卡产品手册详解

发布时间:2025-04-24 19:46:19

寒武纪思元370芯片是基于7nm制程工艺,思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03,思元370实测性能表现更为优秀。思元370也是国内第一款公开发布支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。搭载MLU-Link™多芯互联技术,在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。全新升级的寒武纪基础软件平台,新增推理加速引擎MagicMind,实现训推一体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。

寒武纪思元370芯片参数特性详解

https://www.elecfans.com/d/6566167.html

寒武纪® AIDC® MLU370®-X8智能加速卡训推一体人工智能加速卡

寒武纪®️ AIDC®️ MLU370 ®️ -X8采用双芯思元370配置,为双槽位250w全尺寸智能加速卡,提供24TFLPOS(FP32)训练算力和256TOPS (INT8)推理算力,同时提供丰富的FP16、BF16等多种训练精度。基于双芯思元370打造的MLU370-X8整合了两倍于标准思元370加速卡的内存、编解码资源,同时MLU370-X8搭载MLU-Link多芯互联技术,每张加速卡可获得200GB/s的通讯吞吐性能,是PCIe 4.0带宽的3.1倍,支持单机八卡部署,可高效执行多芯多卡训练和分布式推理任务。

MLU370-X8智能加速卡是全面升级的数据中心训推一体AI加速卡,基于寒武纪全新一代思元370芯片,接口为PCIe 4.0 X16,是全高全长双宽(FHFL-Dual-Slot)的标准PCIe加速卡,适用于业内最新的CPU平台,可轻松搭载于最先进的人工智能服务器,快速实现 AI算力的部署。MLU370-X8加速卡功耗为250W,可为计算机视觉、自然语言处理、语音等多样化的人工智能应用提供强大算力支持。

MLU370-X8 智能加速卡产品手册免费下载

*附件:MLU370-X8 智能加速卡产品手册免费下载.doc

产品规格

板卡型号 MLU370-X8
计算架构 Camicon MLUarch03
制程工艺 7nm
计算精度支持 FP32、FP16、BF16、INT16、INT8、INT4
峰值性能 256 TOPS (INT8)
128 TOPS (INT16)
96 TFLOPS (FP16)
96 TFLOPS (BF16)
24 TFLOPS (FP32)
内存类型 LPDDR5
内存容量 48GB
内存带宽 614.4 GB/s
视频编解码 最高可支持至8K;264路HEVC全高清视频解码;48路HEVC全高清视频编码;
图片编解码 图片编解码最高分辨率支持16384x16384;8000 Frames/s 全高清图片解码;6000 Frames/s 全高清图片编码;
系统接口 x16 PCIe Gen4
MLU-Link™接口 4 ports, 16 Lanes, 50 Gbps
MLU-Link™带宽 聚合带宽200GB/s Bi-direction
形态 全高全长双槽位
最大热功耗 250W
散热设计 被动

在寒武纪基础软件平台 SDK上实测,在常见的4个人工智能模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和寒武纪基础软件平台 CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。

性能对比

*** 测试环境

250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0

350W GPU: Supermicro AS -4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2

  • 加速卡 加速卡 关注

    关注

    1

    文章

    62

    浏览量

    11099

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com