图1:移动云磐石智算交换机
图2:超节点AI算力集群
在大会现场,记者也先后看到华为、中兴、中科海光、超聚变等厂商展示超节点AI集群服务器,在奔向AI 时代当中,AI算力的需求发生了哪些变化?头部通信运营商、互联网巨头是怎样看待这些变化?国产算力芯片又有了哪些最新的进展?记者结合最新的实地采访和前沿产品和大家分析。
鹏城实验室高效能云计算所所长余跃表示,2025年以来,国内外算力发展模式呈现不同路径,国外十万卡集群在如火如荼的建设当中,特别像“星际之门”这样规模的集群快速建设,全球算力资源正在加速向少数国家、少数科技巨头集中,呈现出高度不均衡的发展态势。中国算力总量居世界第二位,但单体算力与国外大型算力相比尚存在差距,亟需通过有组织方式推进分散算力的互联协同。
“从通信层、计算层、网络层和应用层形成全栈式的关键挑战,算力网的四大技术大山分别是:一、大型自主算力供给与应用,比如从千卡走向万卡,从万卡走向十万卡,十万卡集群以华为384超节点Atlas 900 A3 SuperProD为代表,在上面能否训练大模型方向的智能化服务;二、芯光纤通信与网络传输,即算力从局域网到广域,芯片互联集群走向IDC之间的互联,大型的传输如何解决;三、协同调度和算力协同标准,不同的算力中心使用不同的芯片,彼此之间有不同的异构,中间的计算层的互联适配非常难;四、安全可信的计算环境。” 余跃分析说。
考虑到美国禁止高端算力芯片向中国供应,大型自主算力供给已经成为目前的卡点。美国人工智能芯片龙头企业英伟达CEO黄仁勋预测,预测今年中国AI市场约有500亿美元的机会,并且每年还会增长50%。
电子发烧友通过多位供应链人士了解到,按保守计算,2024年中国市场英伟达H20系列芯片出货量约为60万-80万枚,某国产主流AI芯片出货量约为30万-40万枚。中国2024年对AI芯片的需求大约100万枚。而2025年,中国移动、字节跳动、腾讯、阿里都在加大算力设施的投入力度,意味着需要更多AI芯片采购。
据悉,2025年中国移动在智算领域投入373亿元,AI直接投资超百亿元,智算总规模达61.3 EFLOPS,并启动50亿元级AI推理设备集采,全面构建“云-边-端”一体化智算体系。此外,公开消息显示,字节跳动2025年AI资本投入1600亿元人民币,其中AI芯片采购采用了海外和国产芯片双渠道模式。
8月13日,腾讯总裁刘炽平在Q2业绩会表示,元宝、AI搜索等多个应用场景的用户数提升带来推理负载占比提升,公司考虑推理芯片供应渠道侧具备多种选择。鉴于海外高端芯片贸易政策仍存在较大不确定性,腾讯有望依托华为、寒武纪、海光等国产厂商的推理芯片满足相关算力需求。
8月21日,DeepSeek更新模型版本至DeepSeek-V3.1,新版本模型相比前代模型能在更短时间内给出答案,具备更强的Agent能力,新版本模型使用了UE8M0 FP8 Scale参数精度,DeepSeek表示新精度格式针对即将发布的下一代预计将国产芯片设计。
9月24日,在2025年阿里云栖大会上,阿里巴巴集团CEO兼阿里云智能集团董事长吴泳铭宣布了公司迄今为止最激进的AI投资计划,未来三年(2025–2027年)将投入超过3800亿元人民币,用于云计算与AI硬件基础设施建设。资金用于建设AI算力中心和AI芯片、服务器集群采购,以及通义千问大模型等AI基础模型研发。
2025年,在出口管制与国产替代双重刺激下,国产AI算力芯片进入“新品爆发期”。AI芯片呈现三大发展趋势:高效能(提升单位功耗算力输出)、高精度(增强数据处理准确性)、软硬协同(优化芯片与软件栈适配性),其中,高精度计算能力的突破尤为关键。
10月10日,在2025中国移动伙伴大会2层华为展区前,昇腾384超节点Atlas 900 A3 SuperProD最受瞩目。该产品通过总线技术实现384个NPU之间的大带宽低延时互联,算力规模300 PFlops,单卡的推理量,从每秒600Token跃升到现在每秒2300Token,提升4倍,成功打破跨机通信带宽性能瓶颈,实现从服务器级到矩阵级的资源供给模式转变。
图:华为超节点产品Atlas 900SuperPoD 电子发烧友拍摄
早在9月18日华为全连接大会2025上,华为副董事长、轮值董事长徐直军宣布:“华为发布了最新超节点产品Atlas 950SuperPoD和Atlas 960SuperPoD超节点,分别支持8192及15488张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先,在未来多年都将是全球最强算力的超节点。Atlas 950SuperPoD预计2025年四季度上市,Atlas 960SuperPoD预计2027年四季度上市。”
徐直军介绍,未来三年华为规划多款昇腾算力芯片,包括昇腾 950PR、950DT、以及昇腾960和970,其中昇腾950PR 将在2026年第一季度对外推出,该芯片采用了华为自研HBM。
据悉,昇腾950PR芯片架构新增支持低精度数据格式,其中FP8/MXFP8/HIF8: 1 PFLOPS,MXFP4: 2 PFLOPS,重点提升向量算力,提升互联宽带2.5倍,支持华为自研HBM高带宽内存,分为HiBL 1.0和HiZQ 2.0两个版本。规格方面,HiBL 1.0容量128GB,带宽1.6TB/s;HiZQ 2.0容量144GB,带宽4TB/s。
此外,昇腾950DT采用HiZQ 2.0内存,可提升推理Decode(解码)性能,提升训练性能,提升内存容量和带宽。
寒武纪则在7月份的上海人工智能大会展示了最新的云端智能训练芯片思元590,采用 MLUarch05 全新架构,实测训练性能较在售旗舰产品大幅提升,提供了更大的内存容量和更高的内存带宽,其 IO 和片间互联接口也实现大幅升级,让 AI 运算速度更快,处理复杂任务更得心应手 。
海光信息在AI大算力芯片(DCU)领域已形成“深算一号、二号、三号、四号”的梯次迭代,并率先实现商业落地,成为国产GPU阵营里唯一能稳定盈利、批量供货的玩家。记者在中移动合作伙伴大会现场看到,中兴海光服务器广泛部署中国移动关键业务场景,HYGON DCU深算二号K100-AI是训推一体机,覆盖边缘一体机到大型数据中心的集群部署。
图:中兴海光合作推出训推一体机 电子发烧友拍摄
海光信息的新一代AI 算力芯片同样表现出色,采用 7 纳米制程技术,配备 16 核处理器,运算速度相比前一代提升了 50%,功耗却大幅降低。海光信息官方微信也显示,9月29日,DeepSeek-V3.2-Exp发布并且开源,引入稀疏Attention架构,海光DCU第一时间实现无缝适配 深度调优,高效支持Tilelang算子,确保大模型算力“零等待”部署。
百度今年推出最新一代昆仑芯P800系列产品,采用昆仑芯100%自研的XPU-P架构,凭借卓越的计算性能、完善的软件生态和领先的大规模部署能力,该芯片已在国产AI芯片行业内率先实现3万卡集群的成功部署。
本文由电子发烧友原创,转载请注明以上来源。微信号zy1052625525。需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱zhangying@huaqiu.com。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com