3月19日凌晨,NVIDIA 创始人兼首席执行官黄仁勋在2025年GTC开发者大会上发表了主题演讲,演讲覆盖了AI科技演进以及计算需求,同时公布了英伟达的Blackwell架构最新一代产品、未来几代产品的计划出货时间,以及英伟达在人形机器人领域的最新进展。
图源:英伟达官方视频,下同
演讲期间,黄仁勋再次提到AI技术的进化路径,从 Perception 感知AI到 Generative生成式AI,再到现阶段发展火热Agentic代理型AI,最终实现具备传感与执行功能的Physical 物理型AI。黄仁勋认为AI的终极形态Physical AI将彻底改变世界。
以下是演讲的核心内容与关键发布:
Blackwell Ultra芯片
采用台积电4NP工艺,单卡FP4算力达15 PetaFLOPS,HBM3e显存容量提升至288GB,推理速度较前代Hopper提升11倍8。
机架级解决方案GB300 NVL72集成72颗GPU,支持液冷技术,推理性能达每秒1000 tokens(H100的10倍)。性能提升源于NVLink 72高速互联技术,将多GPU组合成“巨型GPU”,突破算力瓶颈。
未来架构规划
Rubin架构(2026年发布):采用NVLink 144互联技术,HBM4内存带宽提升2倍,2027年Ultra版性能将达Blackwell的14倍。
Feynman架构(2028年):以物理学家费曼命名,目标实现算力成本指数级下降。
Dynamo推理操作系统
开源动态调度系统,优化GPU资源分配,使Hopper平台运行Llama模型的吞吐量提升30倍,并支持KV缓存管理。在DeepSeek-R1模型测试中,单GPU生成token数量提升30倍以上。
CUDA生态扩展
CUDA-X库新增工具:Newton物理引擎(与DeepMind、迪士尼合作):提升机器人训练效率10倍。
cuOpt数学规划工具:加速千倍,已与Gurobi、IBM合作。
开发者生态:全球开发者突破600万,加速库增至900 ,覆盖量子计算、生物医学等领域。
AI三阶段演进路径
感知人工智能(Perception AI):大约10年前启动,专注于语音识别和其他简单任务。
生成式人工智能(Generative AI):过去5年的重点,涉及通过预测模式进行文本和图像创建。
代理人工智能(Agentic AI):人工智能以数字方式交互并自主执行任务的当前阶段,以推理模型为特征。
物理 AI(Physical AI):AI 的未来,为人形机器人和现实世界的应用提供动力。
物理AI落地实践
开源人形机器人基础模型Isaac GR00T N1:支持双系统认知(慢思考规划 快思考执行),可迁移至工业制造场景。
与通用汽车合作构建全栈自动驾驶系统:覆盖数字孪生仿真与车载AI安全架构HALOS。
企业级AI解决方案
DGX Spark:售价3000美元的桌面级工作站,支持本地化模型微调。
语义存储系统:与Box合作,支持自然语言数据检索。
边缘与通信技术
联合思科、T-Mobile构建AI-RAN(AI无线网络),优化5G信号处理与能耗。
硅光子技术突破:全球首个1.6T共封装光学(CPO),减少数据中心光模块功耗90%。
黄仁勋宣布Blackwell架构已全面投产,其性能和能效相比前代Hopper架构都有显著提升。基于台积电4NP工艺的Blackwell Ultra芯片(B300系列)正式发布,单卡FP4算力达15 PetaFLOPS,HBM3E显存容量提升至288GB,推理速度较前代Hopper提升11倍。Blackwell Ultra包括NVIDIA GB300 NVL72机架级解决方案和NVIDIA HGXT B300 NVL16系统。GB300 NVL72与上一代NVIDIA GB200 NL72相比,AI的性能提升5倍。GB300 NVL72连接了72个Blackwell Ultra GPU与36个基于Arm Neoverse的Grace CPU;NVIDIA HGX B300 NVL16与上一代相比,在大型语言模型上具有11倍推理速度、4倍内存,可以为AI推理等复杂的工作负载提供突破性的性能。机架级解决方案GB300 NVL72集成72颗GPU,支持液冷技术,推理性能达每秒1000 tokens,已获亚马逊AWS、微软Azure等四大云厂商360万片订单。此外,英伟达还公布了下一代GPU架构Vera Rubin和Feynman的路线图,Vera Rubin架构计划于2026年推出,采用NVLink 144互联技术,HBM4内存带宽提升2倍;2028年发布的Feynman架构,目标实现算力成本指数级下降。
英伟达推出了开源推理软件Dynamo,它可将Hopper平台运行Llama模型的吞吐量提升30倍,支持动态分配GPU资源,优化KV缓存管理。在DeepSeek-R1模型测试中,Dynamo使GB200 NVL72集群的单GPU生成token数量提升30倍以上。CUDA-X库新增Newton物理引擎,与DeepMind、迪士尼合作开发,机器人训练效率提升10倍;cuOpt数学规划工具加速千倍。全球开发者突破600万,加速库数量增至900 ,覆盖量子计算、生物医学等前沿领域。
黄仁勋阐述了AI发展的三阶段演进路径:从感知AI(Perception AI)的计算机视觉和语音识别,到生成式AI(Generative AI)的多模态内容生成,再到当下热门的代理式AI(Agentic AI),其具备主动性,能感知并理解语境,制定并执行计划。未来则是物理AI(Physical AI)的时代,理解物理世界、三维世界的AI将推动机器人、自动驾驶等领域的发展。
演讲期间,英伟达推出了开源人形机器人基础模型Isaac GR00T N1,支持双系统认知,可迁移至工业制造场景。同时,英伟达与通用汽车合作构建全栈自动驾驶系统,覆盖数字孪生仿真与车载AI安全架构HALOS。
英伟达在AI for Science领域的布局持续加深,开发人员现在可以利用CUDA-X与最新的superchip架构实现CPU和GPU资源之间更紧密的自动集成与协调,与使用传统加速计算架构相比,其工程计算工具的速度提高11倍,计算量提高5倍。CUDA-X目前已经在天文学、粒子物理学、量子物理学、汽车、航空航天和半导体设计等一系列新的工程学科带来了加速计算。
黄仁勋特别强调了AI工厂的概念,Dynamo被比作新时代的VMware,能够自动编排如何让AI在推理时代跑得更好。英伟达还推出了AI电脑DGX Spark和DGX Station,采用Blackwell芯片,助力企业构建更高效的AI基础设施。
黄仁勋的演讲全面展示了英伟达在AI领域的技术实力和战略布局,从硬件的持续创新到软件生态的完善,再到对AI发展阶段的深刻洞察,英伟达正致力于推动AI技术从从自主型人工智能推理革命走向物理人工智能终局。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com