ADAS Laboratory


作者提出DOME,这是一个基于扩散的智能世界模型,可以预测未来占用帧,基于过去的占用观测。该世界模型捕捉环境演化的能力对于自动驾驶规划至关重要。
与基于2D视频的世界模型相比,占用世界模型使用本地的3D表示,具有容易获取的标注,并且与模态无关。这种灵活性有可能促进更高级的世界模型的发展。现有的占用世界模型要么由于离散 Token 导致的细节损失,要么依赖于简单的扩散架构,导致预测未来占用具有可控性的效率低下和困难。
作者的DOME有两个关键特征:
(1)高保真度和长时间生成。作者采用空间-时间扩散 Transformer 来基于历史上下文预测未来的占用帧。这种架构有效地捕获空间-时间信息,使高保真细节和长时间预测生成成为可能。
(2)细粒度可控性。作者通过引入轨迹重采样方法,解决了预测的可控性问题,显著提高了模型生成可控预测的能力。在广泛使用的nuScenes数据集上进行的实验表明,作者的方法在定性评估和定量评估方面都超过了现有基准,在nuScenes上建立了新的最先进的性能。
具体而言,作者的方法在占用重建(imIoU)方面比基准提高了10.5%,在IoU方面提高了21.2%;在4D占用预测(mIoU)方面,比基准提高了36.0%,在IoU方面提高了24.6%。
1 Introduction
自动驾驶最近得益于快速发展的学习技术和日益复杂的数据收集 Pipeline 。然而,仍然存在一些重大挑战,例如长尾分布和边缘情况,即使使用最先进(SOTA)方法或大规模数据收集努力,也很难解决。解决这些挑战的一种有前景的方法在于世界模型。世界模型结合了历史背景和另类 Agent 的行动,以预测环境观察的未来演变。这使得自动驾驶模型能够进一步预测未来,从而改善行动可行性的评估(Yang等人,2023年)。
世界模型可以分为几种类型,包括基于2D视频的模型和基于3D表示的模型,例如利用激光雷达和占用框架的模型。虽然基于视频的世界模型在预测真实摄像机观测方面取得了显著的成功,但它们在保持跨视图和跨时间一致性方面仍面临挑战,这限制了它们在实际场景中的应用。另一方面,最近基于占用的世界模型自然避免了这个问题。这些模型将历史占用序列作为输入,并预测未来的占用观测,得益于确保内在3D一致性的原始3D表示。此外,占用标注相对容易获得,可以有效地从稀疏激光雷达标注(Tian等人,2023年)或通过时间帧的自监督学习获得(Zheng等人,2024年)。基于占用的模型是模态无关的,这意味着它们可以从单目或周围相机(Zheng等人,2024年)或激光雷达传感器(Zuo等人,2023年)生成。
现有占用世界模型可以分为两类:基于自回归的方法和基于扩散的方法(Wang等人,2024年)。基于自回归的方法使用离散 Token 在自回归方式下预测未来占用情况。然而,由于这些方法依赖于离散 Token 器,量化的过程会导致信息损失,从而限制了预测高保真占用的能力。此外,自回归方法在生成实际的长时占用序列方面存在困难,因为训练基于GPT的方法具有挑战性。基于扩散的方法将空间和时间信息合并为一个 Token 序列,而不是分别处理,这导致了捕捉空间-时间信息的效率低下。因此,将历史占用信息集成到模型中变得困难,因为空间和时间数据被合并。这种限制意味着模型可以生成输出,但不能预测,限制了其在实际场景中的应用。此外,作者发现大多数占用世界模型在微细控制方面进行了不足的探索,导致过度拟合特定场景,限制了其应用于下游任务的能力。
为了解决上述问题,作者提出了一种预测未来占用帧的新颖方法,称为 DOME。具体而言,作者的方法包括两个组件:Occ-VAE和空间-时间扩散 Transformer 。为了克服离散 Token 的限制,作者的Occ-VAE利用了一个连续潜在空间来压缩占用数据。这使得在有效压缩的同时,还能保持高保真度的细节。
作者的世界模型展示了两个关键特征:
(1)高保真度和长时间生成。作者使用空间-时间扩散 Transformer 来预测未来占用帧。通过利用上下文占用条件,作者将历史占用信息作为输入。空间-时间架构有效地捕获了空间和时间信息,从而实现了细粒度和长时间预测(32s)。
(2)细粒度可控性。作者解决了轨迹精确控制方面的挑战,特别是占用预测往往无法准确捕捉到 ego 车辆的多样化动作问题。为了增强可控性,作者提出了一种轨迹重采样方法,这显著提高了模型生成更精确和多样化的占用预测的能力。
作者在广泛使用的 nuScenes 基准(Caesar 等,2019)上进行了实验,定量结果表明,作者的方法在 3D 占用重建和 4D 占用预测方面都达到了 SOTA 性能。作者的方法明显优于 Baseline ,mIoU 提高了 36.0%,IoU 提高了 24.6%。
总结而言,作者的贡献如下:
-
作者提出了DOME,一种基于扩散的全新世界模型,该模型根据历史占用观测预测未来占用帧。它集成了Occ-VAE,该模型利用连续潜在空间进行高保真占用压缩,以及空间-时间扩散 Transformer 进行高效的4D占用预测。
-
作者针对使用轨迹条件进行精确控制面临的挑战,引入了一种轨迹重采样方法,以增强可控性,从而显著提高了作者的世界模型的控制能力。
-
实验结果显示,作者的方法在nuScenes数据集上实现了最先进的性能,既适用于3D占用重建,也适用于4D占用预测。
欢迎加入自动驾驶实战群
2 Related Work
3D Occupancy Prediction
3D占用预测的任务涉及预测每个3D Voxel 的占用状态和语义标签。近年来,基于视觉的占用预测方法(Huang et al., 2023; Li et al., 2023b)得到了广泛关注,这些方法利用图像作为输入。根据其特征增强方式,这些方法可以分为三种主流类型:鸟瞰视角(BEV)、三视图视角(TPV)和 Voxel 基础方法。
Li等人(2023b;Philion和Fidler,2020)提出的基于BEV的方法首先使用 Backbone 网络提取2D图像特征,然后通过视点变换得到BEV特征,最后使用3D占用头进行预测。然而,由于BEV方法存在从上往下的投影,难以传达详细的3D信息。
为解决这一限制,基于TPV的方法利用三个正交投影平面,增强了描述细粒度3D结构的能力。这些方法在提取2D图像特征后,将其提升到三个平面,然后将投影特征相加形成3D空间表示。与这些基于投影的方法不同,基于 Voxel 的方法直接从原始3D空间学习,有效地捕获了全面的空间信息。
这些方法从 Backbone 网络提取2D图像特征,并将其转换为3D表示,然后由3D占用头进行占用预测。
Autonomous Driving World Model
世界模型是智能体(Ha和Schmidhuber,2018年)对其周围环境的一种表示。根据智能体的行动和历史观察,它可以预测下一个观察,帮助智能体对其环境形成全面的认知。最流行的方法涉及预测驾驶场景的图像或视频(Hu等人,2023a;赵等人,2024;苏等人,2024)。这些方法可以被视为驾驶模拟器,因为它们从汽车摄像头生成前视或范围视输出的图像。Hu等人(2023a)引入了GAIA-1,一种用于自主驾驶的生成式世界模型,它使用视频、文本和动作输入创建逼真的驾驶场景。
最近的方法试图通过融合不同的模态,如点云,或3D占用率(Ma等人,2023年;Wang等人,2024年),来扩展自动驾驶世界模型。基于激光雷达的世界模型预测4D激光点云。Zhang等人(2024年)提出Copilot4D,这是一种使用VQVAE和离散扩散预测未来观测的世界建模方法。它在多个数据集上的预测准确度提高了50%以上,展示了类似GPT的无监督学习在机器人领域的潜力。
另一种方法是基于占用的世界模型,通过3D占用率预测未来场景。Zheng等人介绍了OccWorld,这是一种用于自动驾驶的3D世界模型,它使用3D占用率预测自我车辆的运动和周围场景的演变。
Wang等人提出了OccSora,这是一种用于模拟自动驾驶中3D世界发展的扩散模型。它使用一个4D场景 Token 器和一个DiT世界模型进行占用率生成,以帮助自动驾驶决策。然而,它仅仅专注于生成占用率,而不是基于历史数据预测观测,这引发了关于其作为世界模型的有效性以及其在实际场景中应用的局限性的问题。
3 Method
在本节中,作者介绍了一种基于扩散的占用世界模型(DOME)。作者的方法包括两个主要组件:Occ-VAE(第3.1节)和DOME(第3.2节)。
为了将世界模型与轨迹条件对齐,作者提出了一种轨迹编码器和解轨迹重采样技术,专门用于增强模型的可控性,具体描述如下(第3.3节)。
Occ-VAE
Occup-VAE 是作者模型中的核心组件,它利用变分自动编码器(VAE)(Kingma 和 Welling,2013) 将占用数据压缩到潜在空间,这对于提高表示紧凑性和世界模型预测的效率至关重要。
注意到离散分词器通常无法保留占用帧的细细节,因此作者提出将密集占用数据编码到连续潜在空间,以更好地保留复杂的空间信息。如图2 所示,所提出的架构的详细信息如下:

占用数据:由于Occ-VAE专门针对占用数据设计,作者首先讨论这个3D场景表示。三维占用数据将 ego 车辆周围的场景进行 Voxel 化,得到一个 的 Voxel 网格,其中每个 Voxel 单元根据其包含的物体被赋予语义标签。
编码器:受图像VAE方法(Kingma和Welling,2013)的启发,作者提出了一种专为占用数据设计的连续VAE。为了处理由离散语义ID组成的3D占用数据 ,作者首先通过索引可学习类别嵌入 将它转换为鸟瞰视图(BEV)风格张量 。这个过程将占用数据扁平化为一个一致的特征维度。接下来,编码器网络 将转换后的数据编码为压缩表示。这个表示被沿着通道维度分割为 和 ,其中 和 分别表示编码数据的空间维度,而 表示通道维度。编码完成后,连续潜在变量 使用重参化技巧进行采样(Kingma和Welling,2013):,其中 是一个从标准正态分布中采样得到的噪声向量, 表示逐元素乘法。
编码器同时采用了2D卷积层和注意力模块。分类嵌入 随机初始化,并与Occ-VAE 一起训练。
解码器:解码器网络 负责从采样的潜在变量 中重构输入占用。它采用 3D 解卷积层来上采样潜在表示,以确保提高时间一致性(Blattmann 等人,2023)。上采样的特征 然后被重新形状为 。通过与类嵌入的点积计算 logits 分数 ,其中 logits 的最大值确定最终分类预测。
训练损失:在Occ-VAE的训练过程中,作者的损失函数由两部分组成:重构损失和KL散度损失,遵循标准的VAE框架(Kingma和Welling,2013)。
作者使用交叉熵损失作为重构损失。此外,为了处理预测中的类别不平衡问题,作者引入了额外的Lovasz-softmax损失(Berman等人,2018),这有助于缓解不平衡问题。总损失定义如下:

DOME: a Diffusion-based Occupancy World Model
占用世界模型预测未来的占用观测值 ,基于智能体(agent)的历史数据 ,其中 代表占用观测值, 表示智能体的动作。为了实现这一目标,作者采用了一种具有时间感知层的潜在扩散模型,使得模型能够有效地学习时间变化。通过使用时间 Mask 将历史占用观测值集成,可以鼓励模型根据条件帧预测未来的帧。
此外,为了为世界模型提供增强的运动先验和可控性,作者的轨迹编码器将智能体的动作集成其中,允许通过给定的相机姿态进行精确的下一帧预测。具体而言,作者的模型将输入编码的潜在 以及智能体的轨迹,其中 表示4D占用数据中对应的时间维度,即帧数。潜在值部分被 Mask ,允许可见性只有 帧($n_{c}<n_{f}$),并且模型被训练来预测剩下的被 mask=”” 的帧。<=”” p=””>
**时空扩散 Transformer **:为了在时间 Aware 下预测未来占用,作者采用了一种受基于视频的方法启发的时空潜在扩散 Transformer (Ma等人,2024)。作者首先将潜在表示划分为帧的序列 Token ,其中每个序列包含 Token ,其中表示块大小。然后,在空间和时间维度上都添加位置嵌入(见附录详细说明)。如图2所示,作者的模型由两种基本类型的块组成:空间块和时间块。空间块捕捉同一时间索引下共享的空间信息,而时间块在固定空间索引下提取沿时间轴的时序信息。这些块以错开的方式排列,以有效捕捉空间和时间依赖性。
历史占用情况:为了使模型能够预测未来占用特征,必须将生成条件化在历史占用数据上。这可以通过条件 Mask 来实现。给定占用的多帧上下文和超参数 ,表示上下文帧的数量,潜在 来自历史占用观测。
为了使模型在无条件的情况下生成,作者应用了一个消融机制,其中在比例的时间内,模型在无上下文帧的情况下进行训练。
损失函数:作者将常规的扩散损失扩展为空间-时间版本,使其兼容于上下文占有条件。由于作者预测一系列特征占有,总体损失在所有帧上计算。
在上下文占有条件下,噪声潜在值被替换为实际值(如上所述),因此,使用条件 Mask 忽略那些帧的损失。训练扩散模型的损失函数定义如下:

其中,表示在扩散时标的第帧,而是去噪网络,具体是作者提出的DOME模型。
Trajectory as Conditioning
轨迹条件注入:对于世界模型,基于智能体最后动作 的世界观测 应保持一致和合理地发生变化。作者将轨迹信息注入到作者的模型中进行条件生成。具体而言,给定自车位置,作者首先计算相对平移 和相对旋转 。从 中,作者提取 ,从 中,作者获得偏航角 ,表示自车的朝向。
然后作者应用位置编码(Mildenhall等人,2020年)对 进行编码,使用线性层将编码值映射到隐层大小,并将它们与时间嵌入相结合。将这些组合值传递给自适应层归一化(adaLN)块。
轨迹重采样问题源于训练数据集的不平衡和多样性有限。例如,在nuScenes数据集(Caesar等人,2019年)中,训练集包含700个场景,但大多数场景都是车辆直线行驶(约87%,参见图4(c)),突显了不平衡问题。此外,在每个场景中,车辆只通过一次,导致同一场景内根据不同轨迹条件产生的三维占用样本缺乏多样性。这导致模型过于拟合到场景,只学习基于上下文观测的 GT 特征观察。原始轨迹分布如图4(a)所示。

针对这个问题,作者提出了一种轨迹重采样方法,如图3(a)所示,并在附录中提供了相应的伪代码。作者的目标是使自车的动作和每个场景的采样占用多样化。该过程包括以下步骤:

(1)多帧点云聚合:首先,将自车帧中的占用序列转换为3D点云,然后使用自车的位姿将其转换到世界坐标系中。通过选择点云的语义标签,可以过滤掉潜在的动态目标(例如,汽车,行人)。
(2)获取可行驶区域:为了生成多样化的观察,作者根据场景的可行驶区域创建各种可行的轨迹。将所有点云聚合到世界坐标系中后,作者过滤出道路类别,并从上往下视图将道路点云体化,从而产生一个鸟瞰视角(BEV)地图(见图3(b))。
(3)生成多样和可行的轨迹:使用BEV地图,作者随机选择两个点,分别代表开始和目标位置。作者应用平滑的A*算法(Hart等人,1968)来生成连接这两个点的轨迹,模拟自车的驾驶轨迹。生成的轨迹转换为位姿,其中坐标设为0。
(4)提取重采样占用:使用轨迹位姿,作者应用类似于Tian等人(2023年)的占用 GT 提取方法,从点云中重采样占用。
作者的重采样轨迹分布如图4(b)所示。与图4(a)相比,它填补了轨迹分布中的空白,表明作者的方法增强了多样性并减轻了不平衡性。这一改进进一步得到了图4(c)中显示的驱动方向直方图的支持。
总结而言,作者的轨迹重采样方法既简单又有效。据作者所知,作者是首个探索占用数据增强以预测世界模型的任务。这种方法具有很高的泛化性,可以应用于所有类型的占用数据,包括机器标注的、LiDAR收集的或自监督的数据。
它只需要位置和占用数据,无需LiDAR数据或3D边界框。
Applications of World Models
4D 占用预测:在推理过程中,作者从帧大小(预测帧数)对应的随机噪声开始,并通过Occ-VAE编码个上下文占用帧以获得上下文潜在值。作者将这些上下文潜在值替换掉随机噪声中的帧,并将输入传递给作者的空间-时间DiT(参见图2底部)。在整个去噪循环中,上下文潜在值保持不变,因为它们在每个迭代中都被重新引入。在获得去噪潜在值后,作者将其传递给Occ-VAE的解码器以生成最终占用预测。超参数可以根据不同的需求进行调整。
作者将设置为4,以实现精确的占用预测,因为较长的历史帧可以提供更多的场景和运动信息。当需要更大的可控性时,根据轨迹信号的规定,作者将设置为1,以减少占用运动信息的影响,同时保持可控的起始观测。
为了实现长时间预测,作者采用了与自回归方法相似的放缩策略。具体而言,在生成前n_f帧后,作者使用最后一个预测帧作为上下文帧来预测接下来的n_f帧。偏移将相应的轨迹切割,使其与上下文帧对齐。这种策略可以迭代实现长时间占用预测。
Experimental Setup
数据集:作者在广泛使用的nuScenes数据集(Caesar等人,2019年)上进行实验,使用Occ3D(Tian等人,2023年)提供的占用标注。遵循Zheng等人(2023年)的设置,作者使用默认的训练和验证设置,包括700和150个占用序列,分别采样2 Hz。每个占用序列包含约40帧,采样率为2 Hz。对于每个占用帧,采样分辨率是[0.4,0.4,0.4]米,覆盖感知范围[-40m,-40m,-1m,40m,40m,5.4m],从而生成大小为[200,200,16]的占用网格。每个网格单元根据LiDAR语义被分配一个17个类别标签。
评估指标:作者在占用重建和4D占用预测中均使用了IoU和mIoU指标。更高的IoU和mIoU值表示在压缩过程中信息损失减少,反映出更好的重建性能,并显示出对未来预测更准确的环境理解。
Occupancy Reconstruction
精确地重建占用情况同时尽可能地压缩是预测和生成等下游任务的关键。在这里,作者将Occ-VAE与使用占用 Token 器的方法进行比较,并评估它们的重建准确性。占用情况重建的定量结果如表1所示。作者在mIoU和IoU指标上分别实现了最先进的重建性能,mIoU为83.1%,IoU为77.3%。此外,作者的压缩率相对较高,达到64倍,比Zheng等人(2023)和Wei等人(2024)的压缩率小四倍。值得注意的是,作者采用与Wang等人(2024)中描述的相同的空间压缩率(16倍),但在时间维度上,作者的方法有所不同,没有像他们那样应用额外的8倍压缩。相反,作者在压缩和重建性能之间取得了平衡。此外,过度的空间下采样会使上下文条件变得不方便。

4D Occupancy Prediction
作者将作者的方法与现有的4D占用预测方法进行比较(Wei等人,2024年;Zheng等人,2023年)。这些设置包括使用 GT 3D占用数据(-O)作为输入,并使用来自现成的3D占用预测器的预测结果(-F)。遵循Wei等人(2024年)的实验设置,作者使用FB-OCC(Li等人,2023年)作为占用提取器,利用摄像机输入的预测。
如图5所示,表2中的定量结果表明,作者的DOME-O在mIoU方面取得了27.10%的性能,在IoU方面取得了36.36%的性能,相较于现有SOTA方法在短期(1s)和长期(3s)预测方面均有显著提升,这说明作者的模型能够有效地捕捉场景随时间的基本演变。DOME-F可以被视为一种端到端的基于视觉的4D占用率预测方法,因为它仅使用周围相机的捕捉作为输入。尽管任务具有挑战性,但作者的方法仍实现了竞争力的性能,进一步证明了DOME具有强大的泛化能力。作者还展示了模型在长时间生成方面的能力,如图6所示,以及在给定相同起始帧的情况下,由轨迹条件控制的生成能力,如图7所示。此外,作者在表4中比较了作者的生成能力与现有占用世界模型,作者的方法能够生成最长的时间,实现了OccWorld的十倍长度和OccSora的两倍长度。





Ablation Study
不同的轨迹条件:作者测试了轨迹条件的不同设置,结果如图3所示。_Traj._表示是否使用位姿条件进行预测,_Res._表示是否使用作者的轨迹重采样增强,_Yaw_表示是否添加偏航角嵌入。即使不使用任何位姿条件,作者也发现作者的模型优于OccWorld(Zheng等人,2023年)。轨迹信息显著提高了预测,因为它为模型提供了明确的情景变化方向,而不是让模型从多个可能性中进行推理。偏航角嵌入提供了一定程度的IoU改进。
数量化的上下文框架:作者发现,在预测过程中提供更多的上下文框架可以得到更好的预测结果(参见表5),额外的框架为模型提供了关于运动和其他车辆以及场景变化的具体信息。然而,作者也观察到,增加框架数量并不如使用轨迹信息有效,因为模型必须导航模糊的框架历史来预测未来运动。对于基于智能体确定的场景预测的世界模型来说,这种模糊性是不必要的。

在本论文中,作者提出了一种基于扩散的DOME世界模型,该模型根据历史数据预测未来占用帧。将Occ-VAE与轨迹编码器以及重采样技术相结合,以提高可控性。据作者所知,作者是首次提出为世界模型预测引入占用数据增量的。
DOME展示了高保真生成,有效地预测占用空间中的未来场景变化,并可以生成比之前方法产生的更长占用序列的两倍。这种方法在增强自动驾驶的端到端规划方面具有 promising 的应用前景。
局限性与未来工作。作者发现训练作者的模型仍然需要大量的计算资源。在未来,作者将探索更轻量级和更高效的计算方法,或者采用微调范式以减少资源需求。
Appendix A Appendix
扩散模型初步 作者首先回顾一下扩散模型的基本概念(Ho等人,2020)。扩散模型包含两个过程:噪声过程和去噪过程。在噪声过程中,高斯噪声逐渐添加到原始数据样本,以得到被污染的数据:
在噪声的粒度由超参数 控制的情况下,模型在学习去噪过程中预测了一个去噪样本 。
。去噪过程通过证据下界(ELBO)进行优化(Kingma & Welling,2013):
可以通过计算预测噪声与真实噪声之间的均方误差(MSE)来简化:
时空前向细节:在处理每个空间块时,模型将潜在值视为一批独立的拼接图像,通过将时间层与批处理层相融合。在处理时间块时,潜在值的空间维度与批处理维度相结合。
此过程可以用Rogozhnikov(2022年)的einops(Rogozhnikov, 2022)表示为:
其中 是批量大小维度, 是注入到 DIT 的条件。
空间和时间位置编码:在patchification之后,为了增强模型对空间顺序的理解,应用了一种类似于ViT的空间位置编码。该编码的权重使用2D正弦和余弦函数初始化,并在训练过程中保持固定。这种编码被添加到所有时间维度的空间 Token 中。
当 和 时,作者将位置嵌入(positional embeddings)添加到时间维度以增强模型对时间相关性的理解。作者使用一维的正弦和余弦函数来实现这一目标,这些函数在所有空间维度上都被添加。
输入内容: Where and .
翻译结果: 在实数域中,的元素为,的元素也为。
轨迹位置编码:函数γ是位置编码函数,采用标准方法使用正弦和余弦函数编码位置。Mildenhall等人(2020):
长期持续生成(Rollout for Long Duration Generation):作者的部署策略如图8所示。每次,世界模型预测去噪窗口内被遮挡区域的 content。去噪循环结束后,作者将被替换的遮挡部分替换为去噪过程中生成的 content。在随后的去噪循环中,使用前一个预测的结果作为上下文。这个过程会迭代进行,直到所有占位符都被预测。
实现细节:作者使用AdamW优化器,学习率设置为,使用余弦调度器在输入形状为的情况下进行训练。在每个GPU上进行200个周期的训练,批量大小为10,共使用8个RTX 4090 GPU。
在第二和第三阶段,作者使用具有14个空间和14个时间层、使用AdamW和EMA训练的模型,在GPU上进行训练,批量大小为8,共使用32个RTX 4090 GPU,训练2000个周期。作者使用 Transformer 、混合精度、以及梯度预训练权重来减少内存占用。作者使用DDPM,训练时采用1000个扩散步骤,推理时采用20个扩散步骤。作者设置,,,以及的贴片大小。
作者在此展示了作者的4D占用预测样本。红色边框表示条件帧,其余帧为预测预测。
参考文献
[0]. DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model.
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。