云天励飞副总裁罗忆看好AI推理需求的增长,他指出国内AI面临两大拐点:1、算力需求爆发,大模型推理算力需求将在2026年超越训练需求,成为算力消耗的主题,占据所有算力需求的比例将超过70%。2、国产算力芯片的使用比例不久将会超过海外芯片,目前两者达到五五分。

图1:AI推理需求爆发
10月29日,在安博会的2025智能算力应用及产业发展论坛上,超聚变数字技术有限公司深圳解决方案总监丁元钊表示,原来我们预计2026年是AI推理爆发元年,2025年DeepSeek-R1,V3模型推出,直接推动AI推理市场的上扬,未来3-5年都是AI推理领域的规模应用阶段。不管是行业应用,还是算力相关的芯片,都将大规模的围绕AI推理来爆发。
AI推理火爆主要的驱动力是什么?高通最新AI推理芯片,还有国内AI推理芯片领域,沐曦科技、云天励飞、百度昆仑芯片的最新进展如何?本文将详细汇总和分析。
2025年以来,随着大模型(如DeepSeek、ChatGPT等)在医疗、金融、政务、消费电子等场景广泛部署,AI工作负载正从“训练”转向“推理”。2025年,全球推理任务占比预计达67%,2028年将提升至73%。
2025年被视为“AI Agent元年”,智能体从被动执行转向自主规划与决策,单次任务消耗的Token量是传统对话的100倍以上。大模型普及正驱动全球日均Token调用量飞速攀升,据统计,全球AI巨头月消耗token量已经来到千万亿量级,且仍在持续提升。Token调用量的攀升直接带动了推理算力需求的指数级增长。据麦肯锡预测,全球AI推理市场将于2028年达到1500亿美元,年复合增长率达40%,远高于训练市场的20%。
云天励飞副总裁罗忆指出,Token数可能每年增长10倍,但是算力基础设施投入上,基本是一倍增加,如何弥补中间的鸿沟?这就意味着需要更少的算力解决更多Token的推理。
10月27日晚间,美国移动芯片巨头高通宣布推出两款数据中心人工智能芯片——AI200和AI250,两款芯片对应的AI推理优化解决方案,可提供更高内存容量和优秀的AI推理优化,预计分别于2026年和2027年商用。
与英伟达主导数据中心GPU不同的是,高通选择了一条差异化竞争策略:以机架级性能、高内存实现快速的生成式AI推理为核心方向,强调其在能效、总拥有成本等方面的优势。
AI200 推出一款专用机架级 AI 推理解决方案,旨在为大型语言和多模态模型 (LLM、LMM) 推理及其他 AI 工作负载提供低总拥有成本 (TCO) 和优化的性能。它支持每卡 768 GB LPDDR,可提供更高的内存容量和更低的成本,从而为 AI 推理提供卓越的扩展性和灵活性。

AI250 解决方案将首次采用基于近内存计算的创新内存架构,通过提供超过 10 倍的有效内存带宽和更低的功耗,为 AI 推理工作负载带来效率和性能的跨越式提升。
据悉,AI200 和 AI250 产品均采用直接液体冷却技术进行冷却,利用 PCIe 互连进行纵向扩展,利用以太网进行横向扩展,并提供 160kW 的机架级功耗。高通没有透露有关每个机架的芯片数量或机架将提供的计算性能的信息。
高通还透露,首批AI机架解决方案将于2026年起部署于中东客户“HUMAIN”公司的数据中心。这被视为高通AI芯片商业化的重要里程碑。
在最新沐曦科技披露的IPO文件看,2025年前3个月,沐曦来自训推一体系列产品的收入占比高达97.87%。沐曦科技主要产品覆盖AI计算、通用计算、图形渲染三大领域,先后推出用于智算推理的曦思N系列GPU、用于训推一体和通用计算的曦云C系列GPU,以及正在研发用于图形渲染的曦彩G系列GPU。
2023年,沐曦推出首款训推一体GPU芯片曦云C500,并在此基础上推出了曦云C550;该系列基于国产供应链的产品曦云C600已完成流片。

图:曦云C600 图片来自沐曦科技微信
以英伟达 H20为例,其核心优势在于大容量显存、高速互连带宽、多精度计算能力等。曦云C500系列产品的单卡算力已超过 H20,最新一代曦云 C600 系列产品的单卡算力亦领先于英伟达H20,并具备 FP8 计算单元,能够支持多精度计算。同时,曦云 C600 系列产品配备了大容量显存,超过 H20 的96GB 版本,可以有效承载更大规模数据与模型、减少数据交换的性能损耗、提升多任务并行执行能力。
据悉,曦云C500系列产品的下游客户以国家人工智能公共算力平台、运营商智算平台、商业化智算中心以及教科研、金融等行业客户为主。
云天励飞在湾芯展展出了多款自研芯片——DeepEdge 10、DeepEdge 10C、DeepEdge 10 Max、DeepEdge 200,覆盖从边缘到云端的多种推理场景。
DeepEdge10芯片是云天励飞自主研发的AI推理高性能芯片,采用国产14nm Chiplet工艺,并内置国产RISC-V核。该系列芯片基于“算力积木”AI芯片架构,能够封装成不同算力的芯片,覆盖8T至256T的算力应用,可支持包括Transformer模型、BEV模型、CV大模型、LLM大模型等各类主流模型的高效推理,并已完成DeepSeek 系列模型以及国产鸿蒙操作系统的适配。

图:云天励飞四款AI推理芯片
公司还推出了更高阶的 DeepEdge 200 芯片,面向更高并发和云端推理场景。该芯片采用 D2D Chiplet C2C Mesh Torus 互连,可把多颗 Die 像积木一样拼成 256 TOPS 的“单片”,这款芯片通过“算力积木”把 256 TOPS 级别的大算力塞进 35 W 功耗包络,同时保留横向扩展和软件栈兼容性,成为目前国产 AI 推理芯片中少数能兼顾“边缘高能效”与“云端高并发”的单芯片方案。
2025年2月20日,百度旗下的昆仑芯团队正式发布了P800型号AI芯片,成为国产AI芯片领域的一次重大创新。此次发布的重要亮点在于,这款芯片首度支持单机部署DeepSeek V3/R1671B满血版大模型。
昆仑芯P800的FP16算力为345TFLOPS,显著高于英伟达H20的148TFLOPS,但低于英伟达A100的312TFLOPS。
推理性能:在运行DeepSeek-R1/V3满血版671B模型时,昆仑芯P800单机8卡的量达到2437tokens/s,并发量达到256,比英伟达A100更快。在同样负载情况下,P800的推理延迟比A100降低了18%。值得关注的是,昆仑芯P800在能耗方面比A100提高了约15%的功效比,在资源有限的环境中具有优势。
2025 年中国移动 AI 通用计算(推理型)集采,P800 拿下三个标包 70%-100% 份额,标志着其进入电信级规模采购。
本文由电子发烧友原创,转载请注明以上来源。微信号zy1052625525。需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱zhangying@huaqiu.com。
关注
462文章
53290浏览量
455736免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com