随着机器人技术和自动驾驶汽车的发展,加快物理 AI 的开发工作变得至关重要。物理 AI 使自主机器能够感知、理解并执行物理世界中的复杂操作,而这些系统的核心是世界基础模型(WFM)。这种 AI 模型通过物理感知视频仿真物理状态,使机器能够做出准确的决策并与周围环境进行无缝交互。
NVIDIA Cosmos 是一个帮助开发者为物理 AI 系统大规模构建定制世界模型的平台。从数据整理、训练到定制,它为每个开发阶段提供了开放世界基础模型和工具。
本文将介绍 Cosmos 及其加速物理 AI 开发的主要功能。
使用 NVIDIA Cosmos
加速世界模型开发
物理 AI 的构建难度极大,需要进行精确的仿真并理解和预测现实世界的行为。世界模型是克服这些挑战的关键工具,它可以根据过去的观察结果和当前的输入预测未来的环境状态。这些模型使物理 AI 构建者能够在受控环境中仿真、训练和完善系统,因此对他们价值连城。
但开发有效的世界模型需要大量数据、算力和现实世界测试,这可能会带来巨大的安全风险、后勤障碍和高昂的成本。为了解决这些问题,开发者通常会使用 3D 仿真生成的合成数据训练模型。虽然合成数据是一种强大的工具,但创建合成数据需要耗费大量资源,而且可能无法准确反映现实世界的物理特性,尤其是在复杂或边缘场景中。
NVIDIA Cosmos 端到端平台能够加速物理 AI 系统世界模型的开发。Cosmos 基于 CUDA 构建,结合了目前最先进的世界基础模型、视频 tokenizer 和 AI 加速数据处理管线。
开发者可以通过微调 Cosmos 世界基础模型或从头开始构建新模型来加速世界模型的开发。除了 Cosmos 世界基础模型,该平台还包含:
用于高效整理视频数据的 NVIDIA NeMo Curator
用于高效、紧凑和高保真视频 token 化的 Cosmos Tokenizer
用于机器人和自动驾驶应用的预训练 Cosmos 世界基础模型
用于模型训练和优化的 NVIDIA NeMo Framework
图 1 NVIDIA Cosmos 是一个加速物理 AI 开发的世界基础模型开发平台,包含生成模型、数据采集器、tokenizer 和框架。
适用于物理 AI 的
预训练世界基础模型
Cosmos 世界基础模型是在 9000 万亿个 token(包括来自自动驾驶、机器人、合成环境和其他相关领域的 2000 万小时数据)上训练而成的预训练大型生成式 AI 模型。这些模型能够创建逼真的环境和交互式合成视频,为训练复杂的系统(从执行高级动作的人形机器人仿真到端到端自动驾驶模型的开发)提供了一个扩展自如的基础。
这些模型按架构可分为两种:自回归和扩散,并且均使用 Transformer 架构。这种架构扩展自如,并且能够有效应对复杂的时间依赖性。
自回归模型
Cosmos 自回归模型专为视频生成设计,可根据输入文本和过去的视频帧预测下一个 token。它使用了 Transformer 解码器架构,并且对世界模型的开发作出了多项关键改进。
3D RoPE(旋转位置嵌入)分别对空间和时间维度进行编码,确保精确的视频序列表示。
交叉注意层实现了文本输入,提高了对世界生成的控制力。
QK 归一化提高了训练的稳定性。
该模型的预训练循序渐进,从预测一个单输入帧的 17 个未来帧开始,扩展到 34 个帧,最终达到 121 个帧(或 50000 个 token)。通过引入文本输入,将描述与视频帧相结合,并使用高质量数据对模型进行微调,最终获得稳健的性能。这种结构化的方法使模型无论是否有文本输入,都能够生成不同长度和复杂程度的视频。
图 2 Cosmos 自回归模型使用 Transformer 解码器架构,并且对世界模型的开发作出了多项关键的改进
扩散模型
扩散模型由于能够解构训练数据并根据用户输入进行重建,从而生成高质量的逼真输出,因此被普遍用于生成图像、视频和音频。
扩散模型的运行分为两个阶段:
前向扩散过程:通过在多个步骤中添加高斯噪声,逐步破坏训练数据,从而有效地将其转化为纯噪声。
反向扩散过程:模型学会逐步逆转噪声,通过对损坏的输入数据进行去噪处理来恢复原始数据。
经过训练的扩散模型通过对随机高斯噪声进行采样并将其传递到所学的去噪过程来生成新数据。此外,Cosmos 扩散模型还针对物理 AI 开发进行了多项关键更新。
3D 补丁化将视频处理成更小的补丁,简化了时空序列表示。
混合位置嵌入处理空间和时间维度,支持不同分辨率和帧率的视频。
交叉注意层包含文本输入,可根据描述更好地控制视频生成。
借助 LoRA 实现的自适应层归一化可将模型大小减少 36%,从而减少保持高性能所需的资源。
选择不同大小的模型满足各种需求
开发者可根据性能、质量和部署需求选择以下三种大小的模型。
Nano:专为实时、低延迟推理和边缘部署优化。
Super:高性能基准模型。
Ultra:追求最高的质量和保真度,是蒸馏定制模型的理想选择。
优势和局限性
Cosmos 世界基础模型可生成低分辨率、与现实世界精准匹配的合成视频数据,这些数据是训练机器人和自动驾驶汽车系统的关键。虽然这些模型缺乏艺术感,但其输出结果与物理世界非常接近,因此非常适合用于在物理AI模型训练中实现精确的物体恒存和逼真的场景。
通过护栏保障 Cosmos 基础模型的
安全使用
AI 模型需要护栏保证其可靠性,包括减少幻觉、防止输出有害内容、保护隐私以及与 AI 标准保持一致,从而实现安全可控的部署。Cosmos 通过符合 NVIDIA 可信 AI 承诺的定制双段护栏系统,保障世界基础模型的安全使用。
Cosmos Guardrails 的运行分为两个阶段:前防护和后防护。
前防护
该阶段包含两层基于文本提示的安全措施:
关键词屏蔽:拦截列表检查器扫描提示中的不安全关键词,使用词素化检测变体并拦截非英语术语或拼写错误。
Aegis 护栏:NVIDIA 经过微调的 Aegis AI 内容安全模型可检测并阻止语义上不安全的提示,包括暴力、骚扰和亵渎等类别。如果检测到不安全的提示,就会停止视频生成并返回错误信息。
后防护
后防护阶段通过以下方式保障生成视频的安全性:
视频内容安全分类器:该多类分类器会对视频进行逐帧安全评估。一旦有任何帧被标记为不安全,整个视频将被拒绝。
人脸模糊过滤器:使用 RetinaFace 模型对生成视频中的所有人脸进行模糊处理,以保护隐私并减少年龄、性别或种族偏见。
为了完善系统和覆盖边缘情况,NVIDIA 专家使用对抗性示例进行了严格的测试,对 10000 多对提示-视频添加了注释。
评估 Cosmos 世界基础模型的
3D 一致性和物理一致性
世界基础模型能够为物理 AI 应用准确、高效地仿真现实世界的物理特性,Cosmos 基准测试在评估这一能力方面起到了至关重要的作用。目前,公开的视频生成基准测试侧重于生成视频的保真度、时间一致性和速度,而 Cosmos 基准测试则增加了一个评估通用模型的新维度—— 3D 一致性和物理一致性,以便根据物理 AI 系统对准确性的要求对视频进行评估。
3D 一致性
我们从一个开放数据集中整理了 500 个视频子集,然后在这些视频子集的静态场景中对 Cosmos 模型进行了 3D 一致性测试。为避免与运动相关的复杂性,我们生成了描述视频的文本提示。我们将测试结果与基准生成模型 VideoLDM 进行了比较。
使用的指标
几何一致性:使用 Sampson 误差和摄像机姿态估计成功率等指标,通过极线几何约束技术进行评估。
视图合成一致性:使用峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像补丁相似性(LPIPS)等指标进行评估。这些指标衡量的是根据插值摄像机位置合成视图的质量。
Sampson 误差越低、成功率越高,说明 3D 对齐度越高。同样,PSNR 和 SSIM 越高、LPIPS 越低,说明质量越高。
表 1 Cosmos 世界基础模型与 VideoLDM 基本模型的 3D 一致性评估结果比较
结果
Cosmos 世界基础模型在 3D 一致性方面优于基准模型(表 1),其几何对齐度和摄像机姿势成功率更高。这些模型合成的视图与现实世界的质量相匹配,证明了它们可以作为有效的世界仿真器。
物理对齐度
物理对齐度测试了 Cosmos 模型仿真现实世界物理特性(包括运动、重力和能量动态)的效果。我们使用 NVIDIA PhysX 和 NVIDIA Isaac Sim 设计了八个受控场景,以便评估虚拟环境中的重力、碰撞、扭矩、惯性等属性。
使用的指标
像素级指标:峰值信噪比(PSNR)衡量模型输出的像素值与参考视频的匹配程度。数值越高,说明噪声越小,准确度越高。结构相似性指数(SSIM)评估生成的帧与基准真相帧在结构、亮度和对比度方面的相似性。SSIM 值越高,视觉保真度就越高。
特征级度量:DreamSim 衡量从两段视频中提取的高级特征之间的相似度。该方法可评估生成内容的语义一致性,侧重于物体和运动而非单个像素。
物体级指标:IoU(Intersection-over-Union)计算视频中预测物体区域与实际物体区域的重叠度,尤其适合用于通过仿真追踪特定物体以确保其行为符合物理预期。
PSNR、SSIM、DreamSim 和 IoU 越高,表示物理对齐度越高。
表 2 在 Cosmos 世界基础模型自回归变体所支持的最大长度——33 帧上根据各指标计算出的物理对齐度结果
结果
Cosmos 世界基础模型显示出与物理定律的高度一致性(表 2),尤其是在增加调节数据的情况下。与基准模型相比,在摄像机调节数据集上进行的后训练使姿势估计成功率提高了两倍。但也发现了需要重点改进的地方,如物体无常性(物体意外消失或出现)和不合常理的行为(如违反重力)。
使用 Cosmos 和 NVIDIA Omniverse
为物理 AI 应用定制模型
视频搜索和理解:通过理解空间和时间模式简化视频标记和搜索,使训练数据的准备工作更加轻松。
可控的 3D 转真实合成数据生成:借助 NVIDIA Omniverse,开发者可以创建 3D 场景并使用 Cosmos 生成逼真的视频。可通过 3D 场景精准控制生成的视频,获得高度定制化的合成数据集。
策略模型开发和评估:专为以行动为条件的视频预测而微调的世界基础模型可对策略模型(将状态映射到行动的策略)进行可扩展、可重复的评估,从而减少对有风险的现实世界测试或复杂仿真任务的依赖,例如障碍物导航或物体操作。
行动选择预测:Cosmos 为物理 AI 模型提供了评估潜在行动结果的预测能力。
多重宇宙模拟:借助 Cosmos 和 NVIDIA Omniverse,开发者可以模拟多种未来结果,帮助 AI 模型评估和选择实现目标的最佳策略。从中受益的应用包括预测性维护、自主决策等。
从通用模型到定制专业模型
Cosmos 引入了一种分为两个阶段的世界模型训练方法。
通用模型:Cosmos 世界基础模型作为通用模型构建并在广泛的数据集上训练而成。所使用的数据集包括各种现实世界的物理和环境。这些开放式模型能够处理从自然动力学到机器人交互等广泛的场景,为一切物理 AI 任务提供了坚实的基础。
专业模型:开发者可以使用更小但更具针对性的数据集对通用模型进行微调,以创建专为特定应用(例如自动驾驶或人形机器人)量身定制的专业模型或者生成定制的合成场景(例如带有紧急车辆的夜景或高保真工业机器人环境)。与从头开始训练模型相比,该微调过程大大减少了所需的数据和训练时间。
Cosmos 通过高效的视频处理管线、高性能 tokenizer 和先进的训练框架加快了训练和微调的速度,使开发者能够满足运营需求并覆盖边缘案例,推进了物理 AI 的开发工作。
使用 NVIDIA NeMo Curator 加速数据处理
为了训练模型,需要投喂经过整理的高质量数据,这需要耗费大量时间和资源。NVIDIA Cosmos 包含一个由 NVIDIA NeMo Curator 驱动并专为 NVIDIA 数据中心 GPU 优化的数据处理和整理管线。
NVIDIA NeMo Curator 使机器人和自动驾驶汽车开发者能够高效处理庞大的数据集。以 2000 万小时的视频为例,在NVIDIA Hopper GPU 上处理只需 40 天,在 NVIDIA Blackwell GPU 上处理只需 14 天,而使用未优化的 CPU 管线处理则需要 3.4 年。
主要优点包括:
整理速度提高了 89 倍:大幅缩短处理时间
可扩展性:无缝处理 100 PB 以上的数据
高吞吐量:先进的过滤、字幕添加和嵌入功能可在不影响速度的情况下确保质量
图 4 Cosmos 包含可将视频数据处理速度提高 89 倍的 NeMo Curator
使用 Cosmos Tokenizer 进行高保真压缩和重建
在对数据进行整理后,需要对其进行 token 化才能用于训练。token 化将复杂的数据分解为易于管理的单元,使模型能够更加高效地处理和学习数据。
Cosmos tokenizer 简化了这一过程,在保持质量、降低成本和复杂性的同时,加快了压缩和可视化重建的速度。用于自回归模型的离散 tokenizer 将数据处理时间缩短了 8 倍并将数据所占空间压缩了 16×16 倍,一次最多可处理 49 个帧。用于扩散模型的连续 tokenizer 将数据处理时间缩短了 8 倍并将数据所占空间压缩了 8×8 倍,最多可处理 121 个帧。
使用 NVIDIA NeMo 进行微调
开发者可以使用 NVIDIA NeMo 框架对 Cosmos 世界基础模型进行微调。无论是在本地数据中心还是在云端,NeMo Framework 都能加快在 GPU 驱动的系统上训练模型的速度,帮助开发者增强现成的模型或构建新的模型。
NeMo Framework 通过以下方式实现多模态数据的高效加载:
将 TB 大小的数据集分片成多个压缩文件,以减少 IO 开销。
确定性地保存和加载数据集,以避免重复并最大程度地减少计算浪费。
在交换数据时,使用经过优化的通信方式减少网络带宽。
开始使用 NVIDIA Cosmos
Cosmos 世界基础模型是开放模型并且可在 NGC 和 Hugging Face 上获得。开发者还可在 NVIDIA API 目录上运行 Cosmos 世界基础模型。此外,API 目录上还提供用于提高文本提示准确性的 Cosmos 工具、便于未来轻松识别 AI 生成序列的内置水印系统以及用于解码增强现实应用视频序列的专用模型。如需了解更多信息,请观看演示。
用于加速数据处理管线的 NeMo Curator 以托管服务和 SDK 的形式提供。开发者现在可以申请抢先体验。Cosmos tokenizer 是开放式神经网络并且可在 GitHub 和 Hugging Face 上获得。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com