复旦大学提出DriveX使用视频扩散模型生成先验的自由轨迹驾驶场景-百合树AI写作-专业学术论文写作助手

收录于话题

Abstract

沿自由形式的轨迹生成驾驶场景对于驾驶模拟至关重要，它能够实现端到端驾驶策略的闭环评估。尽管现有方法在记录轨迹的视图合成上表现出色，但在自由形式轨迹上的表现仍面临挑战，这是由于驾驶视频的视角有限以及驾驶环境的广阔性。

为了解决这一问题，我们提出了一种新颖的自由形式驾驶视图合成方法，称为 DriveX，通过利用视频生成先验来优化跨多种轨迹的三维模型。具体来说，我们设计了一个逆问题，使视频扩散模型可以作为参数化三维模型（例如，高斯分布模型）在多轨迹优化中的先验。在优化过程中，我们迭代地执行这一过程，以无缝利用生成先验。

最终的模型能够在记录轨迹之外生成高保真的虚拟驾驶环境，从而实现自由轨迹驾驶模拟。除了真实驾驶场景之外，DriveX 还可以用于从 AI 生成的视频中模拟虚拟驾驶世界。

代码地址：https://fudan-zvg.github.io/DriveX/

Introduction

构建与驾驶策略交互的虚拟驾驶世界在开发鲁棒的自动驾驶系统中扮演着关键角色。这种能力使得能够自动合成多样化的驾驶数据，包括安全关键的长尾场景和边缘情况，同时为端到端自动驾驶系统提供闭环评估。

当前方法旨在从单一驾驶序列中重建驾驶环境，通常涉及稀疏视角、重叠区域较少且纹理缺失的单轨迹视频。尽管在拟合训练视图和沿原始轨迹插值方面取得了令人印象深刻的成果，但这些方法在从记录轨迹外推生成全新视图时仍面临挑战，导致其灵活性和用于驾驶模拟的实用性受限。

为了解决这些问题，之前方法在设计上仍存在诸多限制，包括：(i) 需要对现成的图像生成模型进行微调以实现视图变换功能，这不仅增加了计算成本，还受到每场景数据稀缺性的限制；(ii) 图像模型中缺乏所需的时空知识。

为了解决上述挑战，我们提出了一种针对自由轨迹的新型驾驶场景合成方法，称为 DriveX，通过在模型（如高斯分布模型）优化中利用具有丰富时空知识的视频生成先验来实现。这是通过设计一个逆问题实现的，使视频扩散模型能够作为优化多种轨迹的高斯模型的先验。在训练过程中，我们使用训练中的模型渲染新轨迹视图。为了识别轨迹外推中可能出现的伪影，我们将每个渲染视图与在相同视图和几何条件下记录的图像进行比较，从而获得每个渲染图像的可靠区域。然后，我们将逆问题设计为利用对应的可靠区域作为条件输入来恢复每个渲染视图，这一过程可以通过视频扩散模型有效执行。此过程的输出随后作为监督信号输入到优化中以更新目标模型。为了无缝利用生成先验，我们在高斯优化期间迭代地执行这一过程。

3、Method

3.1 预备知识：驾驶场景重建

基于重建的驾驶模拟旨在从校准视频 (V_{gt} = {I_i}{i=0}^F) 中恢复周围场景，其中视频沿驾驶轨迹 (T = {P_i}{i=0}^F) 录制，(P_i in SE(3)) 表示第 (i) 帧的相机姿态。当车辆在重建的环境中执行未记录的模拟动作（例如变道）时，可渲染出传感器数据。

近年来，由于 **3D Gaussian splatting (3DGS)**在保真度和效率上的显著优势，它被广泛应用于多个街景重建任务中，作为一种基础场景表示方法。3DGS 将场景表示为一组三维高斯分布，记为 (G)。每个高斯基元的位置 (x_k in mathbb{R}^3) 和协方差矩阵 (Sigma in mathbb{R}^{3 times 3}) 对任何位置的影响由未归一化的高斯函数 (G_k(cdot; x_k, Sigma)) 表示，并通过其不透明度 (o_k in mathbb{R}) 进行加权。给定任何相机姿态 (P_i)，可以通过对当前视图可见的 (N) 个排序高斯进行 splatting 和 alpha blending 来渲染：

其中 (R) 表示可微高斯光栅化器，(I’) 是渲染图像，(c_k) 是第 (k) 个高斯的视图相关颜色。然后，通过记录视频 (V_{gt}) 中渲染图像 (I’_i) 和真实图像 (I_i) 之间的光度损失优化高斯分布 (G)：

其中 (L_{SSIM}) 是 SSIM损失，(lambda) 是权重。

在城市场景中，虽然交通参与者是动态的，但在其局部坐标系中可以被视为静态的。从每个物体的局部坐标系到整个场景的全局坐标系的变换由一系列旋转和平移参数化，这些参数可以通过现成的 3D 跟踪器标注的轨迹推导出来。这样，一个完整的动态街景可以通过分离的前景移动高斯和背景静态高斯进行建模。此外，立方体贴图通常用于建模具有无限距离的天空。

挑战
由于自动驾驶车辆中的相机配置主要用于感知任务，拍摄的视频通常仅提供有限的视点、最小的重叠区域和大面积的纹理缺失。这些固有特性为从单轨迹视频中重建无限驾驶场景带来了挑战。仅仅在记录轨迹 (T) 上拟合训练视图不足以在 (T) 之外进行令人满意的新视角合成。因此，现有基于优化的驾驶场景合成方法在沿新轨迹 (T’ = {P’_i | P’i notin T}{i=0}^F) 渲染高质量视图时，通常会出现明显的退化和伪影。

3.2 DriveX

为了解决上述挑战，我们提出了一种新框架 DriveX，将生成先验无缝融入驾驶场景重建过程（例如高斯优化）。如图 2 所示，该框架通过利用视频扩散模型作为监督迭代地优化高斯模型，从而合成新轨迹场景。为了确保生成的内容在细节上与基础场景保持一致，生成过程适当地以正在训练的高斯模型为条件。

为此，我们精心设计了一个逆问题，可以表述为从包含伪影的新轨迹渲染图像 (V’) 中恢复干净的新视图图像 (V)。具体来说，(V’) 可被视为未知真实值 (V) 的观测值，如下所示：

解决方案详细描述

逆问题的生成先验解法
关键在于准确识别新视图渲染视频中的伪影。受到稀疏视图重建方法的启发，我们通过比较渲染图像与记录图像构建了一个不可靠掩码，用于指导扩散模型专注于优化这些不可靠区域，同时保留可靠区域。具体地，对于新轨迹 (T’ = {P’i}^F{i=0}) 的视图序列，采用视频扩散模型 (D) 来估计 (V_i)：

其中，(V’t) 是从当前迭代 (t) 的高斯模型 (G_t) 渲染出的图像（公式1），(V’{t,text{refine}}) 被视为公式3中的 (V) 的估计值，掩码 (M) 表示不可靠区域。模型 (D) 输入被加噪图像，以掩码视频为条件，输出优化后的视频 (V’{t,text{refine}})。然后，(V’{t,text{refine}}) 被用作新轨迹损失 (L’)（公式6）的附加监督，以改善新视图渲染质量。

为评估新视图渲染图像的几何精度，我们通过比较渲染图像和从记录轨迹得到的新视图变形图像，推导出掩码 (M)。设 (I_{text{ren}} in V’t) 为渲染图像，(I{text{rec}}) 为与之最近的记录图像。定义变形操作 (psi)（公式7）用于给定相机姿态 (P) 将3D点 (p) 投影到图像平面：

其中 (x, y) 表示像素坐标，(d) 为深度。因为 (psi) 是可逆的，所以可通过对应的深度图将图像逆投影到3D点。随后，通过在 (I_{text{rec}}) 中利用从 (I_{text{ren}}) 到 (I_{text{rec}}) 的变形像素坐标 ((x, y, d)) 采样颜色，得到伪图像 (hat{I}_{text{ren}})：

由于难以保证 (I_{text{ren}}) 和 (hat{I}_{text{ren}}) 间的像素级对应，我们使用 SSIM 评估片段结构级的相似性，并通过对 SSIM 分数应用阈值 (tau) 得到不可靠掩码 (M)：

通过这种方式，深度与图像的差异可作为几何或外观不可靠性的指标。
此外，为提高效率，在视频优化时，我们通过给伪图像 (hat{I}_t) 添加一定程度的高斯噪声进行扰动，而非从头开始去噪。这既减少了不必要的时间消耗，也通过保留原始视频中的低频分量，避免了颜色偏移。

迭代优化与生成模型集成

如算法1所示，我们首先在记录轨迹上使用常规重建方法进行 (T_0) 步的预热优化。然后，将优化后的视频 (V’_{t,text{refine}}) 存入缓冲区，并每隔 (K) 步更新一次。考虑到视频扩散模型的额外计算开销，通常不设置 (K=1)（即每步更新）。生成内容与高斯模型 (G_t) 条件绑定，确保重建与生成之间的一致性。

新轨迹采样设计

理想的轨迹 (T’ = {P’i}^F{i=0}) 应在以下两方面平衡：

最大化生成模型的效用，使新视图有助于提升重建质量；
最小化记录图像与生成图像间的不一致。

我们采用从记录的正前视图 (P’_0 = [R_0|T_0]) 开始，并逐步横向移动的摇镜轨迹：

其中，(v in mathbb{R}^3) 是移动方向，(s in mathbb{R}) 控制最大移动长度。在优化的早期阶段，由于相机逐渐偏离记录轨迹，渲染质量可能会下降。为应对此问题，我们初始采用较小的 (s)，并在优化过程中逐步扩展，以确保方法的稳定性和鲁棒性。

生成视频的应用

除真实场景外，还可以通过视频生成器创建用于重建的驾驶视频，探索多样虚拟驾驶环境的自动创建新可能性。然而，AI生成的视频由于缺乏对应的 LiDAR 深度和帧间像素级精确匹配，面临更严峻的挑战。这进一步凸显了生成先验提供的新视图监督的重要性。

为此，我们针对 AI 生成的视频设计了一种鲁棒优化方案：

使用前馈方法估计每帧的相机参数和对应深度。
对于包含移动车辆的场景，手动标注其轨迹作为局部坐标系的初始化。
在优化中微调相机姿态，减少潜在预测误差。

在不可靠性计算中，由于生成视频是单目，我们采用包括当前位移视图内容的最近帧作为辅助源图像，以确保公式8中所有新视图区域的不可靠性分数定义明确。

Experiment

4.1 实验设置

数据集：
- 真实世界数据
  
  ：从 Waymo Open Dataset 中选择了 12 个序列，这些序列包含周围环境的视频和同步的 LiDAR 点云数据。使用官方的目标跟踪轨迹对动态交通参与者的点云进行裁剪，并初始化它们的逐帧位姿。
- 生成视频
  
  ：使用视频扩散模型生成的 12 个驾驶场景视频，这些视频以 nuScenes 验证集中的初始帧为条件生成。
评估指标：
为了合理评估 DriveX 在现有基于重建的街景合成方法中的改进，我们在新轨迹视角下对 DriveX 和一些代表性基线方法进行了定量比较。由于这些新轨迹上没有传感器数据的真实值，无法直接对像素级的保真度进行评估。因此，我们设计了一套新的基准测试，综合评估这些视角下的合成结果：
- 使用 Frechet Inception Distance (FID) 衡量新轨迹合成视角的真实性，比较合成视频与原始轨迹捕获视频的分布差异。
- 报告 Lane IoU（车道交并比）和 Vehicle AP（车辆平均精度）来评估两个交通关键元素（车道和车辆）在新轨迹视角下的辨识度和保真度。具体的计算细节见附录。
实现细节：
- 对于有校准数据和 LiDAR 的真实视频重建，先用高斯模型优化 50,000 步，然后在接下来的 30,000 步中结合生成先验。
- 对于新轨迹视频，新轨迹的初始视角从每 3 个记录的前向摄像头中选择一个，偏移方向向左或向右，偏移长度范围为 2 米到 4 米。
- 在迭代优化中，每 2000 步更新一次缓存存储的精炼视频。
- 使用 ViewCrafter 作为生成先验，图像加噪强度设置为 0.6，SSIM 阈值设为 0.65。
- 在动态车辆的监督中，监督强度被降低至 0.2。
- 对于生成视频，先估计摄像机位姿和深度，然后进行类似的优化过程。

4.2 与最新技术的对比

真实视频上的结果

在真实场景重建的对比中，我们主要关注在记录轨迹之外的全新视角上的改进。为此，我们沿着偏离记录轨迹 ±1m、±2m 和 ±3m 的路径合成了全新的驾驶视频。表 1 显示了我们在 FID、AP 和 IoU 上的显著提升：在最大 3m 偏移范围下，FID 降低了 9.3%，AP 提高了 1.6%，IoU 提高了 21.1%。图 3 中通过视觉效果进一步验证了这些改进，安全关键场景元素在新视角中通过我们的方法得到了良好的合成结果。可以看出，通过集成生成式先验，我们的方法在较大轨迹偏移情况下仍能展现出强大的渲染质量，生成了更加真实的驾驶环境。值得注意的是，模型训练完成后，只需依赖高斯模型进行推理，从而实现高效的渲染速度。

为了公平比较未开源的 DriveDreamer4D，我们采用了相同的实验设置（序列、指标以及其报告的最佳高斯模型对照。结果如表 2 和图 3 底部所示。我们的模型在所有指标、视觉质量以及交通元素的一致性方面，显著优于 DriveDreamer4D 和其高斯模型。

生成视频上的结果

该方法的另一个有趣应用是将 AI 生成的视频转换为可重现的驾驶世界。为了定量评估这一能力，我们在 12 个生成的驾驶视频上，对 DriveX 和仅基于重建的基线方法进行了对比。表 9 中报告了在不同新轨迹上的视频渲染 FID 结果。结果表明，在一定的偏移范围内，渲染视频的真实感得到了很好的保留。与仅基于重建的基线方法相比，DriveX 在 ±1m 和 ±2m 偏移长度下分别实现了 4.1% 和 2.6% 的 FID 降低。为了获得真实世界的距离，我们通过最小二乘估计对第一帧的预测深度与 LiDAR 深度进行了对齐。这些改进在图 4 中也清晰展示出来。可以看出，基线方法在远离记录轨迹的视图中表现出显著的质量下降。

4.3 消融实验

不同的高斯模型
尽管在之前的实验中，我们默认采用了 StreetGaussian作为高斯模型的对比基线，但 DriveX 同样能够适配其他高斯模型选择。为了展示 DriveX 的多样性，我们观察到 DriveX 策略在不同模型中都能显著降低 FID，并有效恢复基线方法中完全无法识别的街道车道和车辆（例如 IoU 和 AP）。除非另有说明，所有消融实验均在两个 Waymo 序列上进行。
不可靠性掩码
不可靠性掩码用于指导视频扩散模型的生成。从表 5 和图 5(a) 中可以观察到：
- (i)
  
  当所有区域都被掩码覆盖时，视频扩散模型无法从训练中的高斯模型中获取任何信息，导致结果质量较差；
- (ii)
  
  当不使用掩码时，生成模型仍然可以将渲染结果调整到视频分布，但改进较小；
- (iii)
  
  使用所提出的不可靠性掩码后，完整模型在定量和定性结果上均表现优异。
迭代精炼
迭代精炼的间隔在质量和效率之间提供了权衡。当新轨迹的监督仅在初始迭代 (T_0) 生成时（见图 5(b)），新视角的质量受限于未完全优化的训练中的高斯模型。另一方面，无法承受每一步运行扩散模型的时间成本。从表 6 中可以看到，较小的间隔（如 500 步）会导致 4.8 倍的训练时间。因此，我们最终选择了 2000 步作为间隔，以实现质量与效率的平衡。

结论：

本文的贡献如下：
(i) 我们提出利用具有丰富时空知识的视频生成先验，从单轨迹记录视频中实现广泛适用的驾驶场景合成。
(ii) 我们引入了一种新颖的自由轨迹驾驶场景合成框架 DriveX，创新性地构建了一个逆问题，以使视频扩散模型作为先验使用。
(iii) 大量实验表明，DriveX 在使用单轨迹记录视频进行驾驶场景合成方面显著优于现有最先进的替代方法。此外，我们展示了该方法在从 AI 生成视频中渲染虚拟驾驶世界新轨迹时的优势，即使面临固有的内容不一致性问题。这种方法无需为每个场景采集视频，从而实现了更具经济可扩展性的模拟规模化。

引用文章：Driving Scene Synthesis on Free-form Trajectories with Generative Prior

复旦大学提出DriveX使用视频扩散模型生成先验的自由轨迹驾驶场景