寒武纪思元370芯片是基于7nm制程工艺,思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03,思元370实测性能表现更为优秀。思元370也是国内第一款公开发布支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。搭载MLU-Link™多芯互联技术,在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。全新升级的寒武纪基础软件平台,新增推理加速引擎MagicMind,实现训推一体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
https://www.elecfans.com/d/6566167.html
寒武纪®️ AIDC®️ MLU370 ®️ -X8采用双芯思元370配置,为双槽位250w全尺寸智能加速卡,提供24TFLPOS(FP32)训练算力和256TOPS (INT8)推理算力,同时提供丰富的FP16、BF16等多种训练精度。基于双芯思元370打造的MLU370-X8整合了两倍于标准思元370加速卡的内存、编解码资源,同时MLU370-X8搭载MLU-Link多芯互联技术,每张加速卡可获得200GB/s的通讯吞吐性能,是PCIe 4.0带宽的3.1倍,支持单机八卡部署,可高效执行多芯多卡训练和分布式推理任务。
MLU370-X8智能加速卡是全面升级的数据中心训推一体AI加速卡,基于寒武纪全新一代思元370芯片,接口为PCIe 4.0 X16,是全高全长双宽(FHFL-Dual-Slot)的标准PCIe加速卡,适用于业内最新的CPU平台,可轻松搭载于最先进的人工智能服务器,快速实现 AI算力的部署。MLU370-X8加速卡功耗为250W,可为计算机视觉、自然语言处理、语音等多样化的人工智能应用提供强大算力支持。
MLU370-X8 智能加速卡产品手册免费下载
*附件:MLU370-X8 智能加速卡产品手册免费下载.doc
板卡型号 | MLU370-X8 |
---|---|
计算架构 | Camicon MLUarch03 |
制程工艺 | 7nm |
计算精度支持 | FP32、FP16、BF16、INT16、INT8、INT4 |
峰值性能 | 256 TOPS (INT8) |
128 TOPS (INT16) | |
96 TFLOPS (FP16) | |
96 TFLOPS (BF16) | |
24 TFLOPS (FP32) | |
内存类型 | LPDDR5 |
内存容量 | 48GB |
内存带宽 | 614.4 GB/s |
视频编解码 | 最高可支持至8K;264路HEVC全高清视频解码;48路HEVC全高清视频编码; |
图片编解码 | 图片编解码最高分辨率支持16384x16384;8000 Frames/s 全高清图片解码;6000 Frames/s 全高清图片编码; |
系统接口 | x16 PCIe Gen4 |
MLU-Link™接口 | 4 ports, 16 Lanes, 50 Gbps |
MLU-Link™带宽 | 聚合带宽200GB/s Bi-direction |
形态 | 全高全长双槽位 |
最大热功耗 | 250W |
散热设计 | 被动 |
在寒武纪基础软件平台 SDK上实测,在常见的4个人工智能模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和寒武纪基础软件平台 CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。
*** 测试环境
250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0
350W GPU: Supermicro AS -4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2
关注
1文章
62浏览量
11099免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com