LiGAR:基于LiDAR的多级群活动识别分层 Transformer !


LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

群体活动识别(GAR)在计算机视觉领域仍具有挑战性,因为多智能体交互的复杂性。本文介绍了一种名为 LiDAR 的 LIDAR 引导的分层 Transformer ,用于多模态群体活动识别。

LiDAR 利用激光雷达数据作为结构骨架,指导视觉和文本信息处理,实现对遮挡和复杂空间布局的强健处理。

作者的框架包括一个多尺度激光 Transformer 、跨模态引导注意力以及自适应融合模块,用于在不同语义 Level 的多模态数据有效集成。

LiDAR 的分层架构捕获了从个体行为到场景级动态的多种粒度的群体活动。在 JRDB-PAR、排球和 NBA 数据集上的广泛实验表明 LiDAR 的优越性能,F1 得分在 JRDB-PAR 上提高了 10.6%,在 NBA 数据集上的平均每类准确率提高了 5.9%。

值得注意的是,在推理过程中,即使 LiDAR 数据不可用,LiDAR 仍然保持高性能,展示了其适应性。

作者的消融研究强调了每个组件的重要性和作者的多模态、多尺度方法在推进群体活动识别领域中的有效性。

1 Introduction

群体活动识别(GAR)已成为计算机视觉中的一个关键挑战,将个体行为识别与复杂场景理解之间的鸿沟弥合。近年来,该领域取得了显著的进展,方法包括层次模型[19]、演员关系图[39]以及基于 Transformer 的架构[15, 25]。然而,这些方法通常以一种受限制的方式解释群体活动,通常依赖于单一模态或独立处理多个模态,然后将融合。这种方法限制了发现更细微和多样群体互动的可能性。如图1所示,这一点得到了很好的说明。

欢迎加入自动驾驶实战群


LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

深入研究多模态 GAR 问题,作者提出 LiDAR-Guided Hierarchical Transformer (LiGAR),这是一个全新的框架,从根本上重新想象了 GAR 的处理方式。LiGAR 的特点是能够处理和集成来自多个模态 – LiDAR、视频和文本 – 在多个尺度上的信息,捕获丰富的空间、时间和语义信息光谱。为此,作者提出一个多尺度处理 Pipeline ,作为 LiDAR 的核心,提供一种直观的建模技术,以增强对群体活动和复杂参与者动态的深入理解。

所提出的LiGAR框架在每一个 Level 上使用独特的_跨模态引导注意力机制_来共同处理多模态信息。这种策略简化了操作,并消除了单独模态特定处理流的复杂性。而不是将群体活动视为一个单一的整体,LiGAR模型将输入数据用_层次结构_来表示,促进对演员互动的全面理解。每个 Level 都能深入挖掘关键见解,利用不同尺度和模态的特征,在时间上更全面地捕捉场景变化。

此外,LiGAR 通过其自适应模态融合模块促进了动态的适应性和灵活性,使模型能够调整在不同模态上的关注点,以捕捉视频序列中的群体活动。这种适应性进一步体现在 LiGAR 能够成功地处理跨越多种场景的群体活动识别,从体育分析到监控系统,展示了其在解码各种交互细节的广泛灵活性。所提出的框架不仅限于特定领域,强调了其广泛的适用性和潜力。

本文的主要贡献可以分为以下三个方面:

LiDAR引导的多模态架构: 作者提出了一种新颖的分层 Transformer 架构,该架构利用LiDAR数据作为结构骨架来指导视觉和文本信息的处理。这包括在3.2节中介绍的多尺度LiDAR Transformer (MLT),用于创建分层场景表示,以及在3.4节中介绍的跨模态引导关注(CMGA)机制。这种创新方法使得处理复杂的空间布局和遮挡更为强大,显著增强了模型解释细腻的群体活动的能力。

适应多模态融合与层次解码:作者在第3.5节中提出了一个基于TimeSformer的适应性融合模块(AFM),该模块动态地将LiDAR、视觉和文本模态集成,同时建模时间依赖性。这与第3.6节中描述的层次活动解码器相结合,该解码器从单个动作到场景级动态预测多个粒度的活动。这些组件使LiGAR能够适应地在视频序列的不同模态和尺度上聚焦,捕获群体互动的全光谱。

综合评价:通过在多种基准数据集上的广泛实验,包括JRDB-PAR [17]、Volleyball [19]和NBA [42],作者证明了LiGAR在多模态群体活动识别方面的优越性。

作者的结果表明,与最先进的方法相比,LiGAR在JRDB-PAR上的F1得分提高了10.6%,在NBA数据集上的平均每类准确率提高了5.9%。值得注意的是,当推理时LiDAR数据不可用时,LiGAR仍然保持高性能,展示了其适应性和在各个应用领域的广泛影响力。

作者的工作在GAR领域中取得了最先进的状态,并开辟了利用多模态、多尺度信息在各种计算机视觉任务中的新途径。LiGAR框架在推理时即使没有LiDAR数据也能有效执行的能力,凸显了其适应性及其在各个应用领域产生广泛影响的潜力。

2 Related Work

Group Activity Recognition

群体活动识别已成为计算机视觉领域的一个重要研究领域,其应用涵盖了各种领域。典型的GAR范式涉及分析视频片段以预测群体活动标签,通常需要理解个体行为及其集体影响。

早期GAR方法依赖于手工设计的特征和传统机器学习模型,如随机森林。深度学习的出现改变了这一局面,引入了利用多级RNN架构捕捉个体和交互特征的方法。

近年来,生成对抗网络(GAN)的进步主要集中在关系学习上,采用了复杂的深度学习技术。图神经网络和注意力架构[15, 16]已经变得普遍,使得对演员之间关系进行更细微的建模成为可能。这些方法通常涉及使用技术提取人类 Level 的特征,如RoIPooling [30]或RoIAlign [34],然后在这些提取的特征上进行关系学习。

Hierarchical and Multi-modal Approaches in GAR

识别群体活动的复杂性,研究行人既研究了层次方法,也研究了多模态方法,以提高GAR性能。层次方法旨在捕获不同语义层面的活动,而多模态方法则利用多种数据来源进行更丰富的表示。

一些研究已经探索了GAR(群体活动识别)中的层次结构。[19] 提出了一种层次LSTM模型来捕捉个体、组和场景 Level 的活动。 [18] 引入了一种多尺度时间CNN来处理各种时间分辨率的活动。近年来, Transformer 架构已经被用于多级活动识别。 [9] 利用层次 Transformer 来模拟不同语义 Level 之间的长期依赖关系。

同时,多模态方法在解决单模态方法的局限性方面取得了进展。[31] 结合了RGB视频和深度信息,以提高复杂场景中的活动识别。对作者来说,几项最近的研究探索了将LiDAR数据集成到活动识别任务中的可能性。Sun等人[33]使用LiDAR点云来增强3D人体姿态估计,以提高动作识别,而Jiao等人[21]提出了一种融合网络,将RGB和LiDAR模态的特征结合起来,以实现强大的活动分类。Chappa[3]引入了一个使用RGB和文本输入的多模态框架,以在场景中执行群体活动识别和定位动作。

尽管取得了这些进展,将层次建模与真正多模态方法相结合的研究仍然 largely 未探索。许多现有方法要么专注于单个模态内的层次结构,要么采用后期融合策略处理多模态数据,可能会错过不同语义水平之间的关键间模态关系。此外,将文本数据与视觉和 LiDAR 信息一起在层次框架中集成到 GAR 中仍然是一个开放挑战。

3 Methodology

Overview

如图2所示,LiDAR框架通过利用LIDAR、视频和文本数据的优点,提出了一种新颖的多模态群体活动识别方法。作者的方法在 Pipeline 中处理信息,支持多个尺度,从而实现对各种粒度下群体活动的丰富理解。

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

作者的方法的关键创新包括:

1.) 多尺度处理LIDAR数据,以在不同分辨率下捕捉空间信息。

2.) 使用LIDAR特征的跨模态引导注意力机制,以增强视频和文本表示。

3.) 使用TimeSformer进行模式的适应性融合,允许对信息源进行动态加权。

4.) 具有层次解码器的预测模型,可以预测场景、组和个体 Level 的活动。

以下子节详细介绍了每个框架组件,解释了作者的设计选择背后的直觉,并说明它们如何有助于有效群体活动识别。

Multi-Scale LiDAR Processing

激光雷达数据为作者提供了宝贵的3D空间信息,这可以显著增强作者对群体活动理解。为了充分利用这些信息,作者对不同尺度的激光雷达点云进行处理,捕捉到细粒度的细节和更广阔的空间背景。

3.2.1 Multi-Scale LiDAR Transformer (MLT)

MLT处理在不同尺度的点云,创建层次化的场景表示。对于每个尺度k,作者执行以下操作:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !


在这里,FPS 是 farthest point sampling 操作,它选择一组点来表示场景在尺度 下的缩放。SA 是来自 PointNet++ [29] 的一组抽象层,它聚合局部特征。TransformerEncoder 然后处理这些特征,捕捉复杂的空间关系。

这多尺度方法使得作者的模型能够同时捕捉到细粒度的相互作用和更广泛的空间布局(例如,群体形成)。

3.2.2 LiDAR Feature Extractor (LFE)

为了进一步优化LIDAR表示用于活动识别,作者提出了一种LIDAR特征提取器:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

LFE利用了针对不同粒度 Level 群体活动的空间-时间模式进行缩放特定的注意力机制,使作者的模型可以从丰富的LIDAR数据中学习与活动识别相关的特征。

Multi-modal Feature Extraction

尽管LIDAR数据提供了有价值的空间信息,但视频和文本模态提供了对全面活动识别至关重要的重要互补线索。作者在多个尺度上处理这些模态,以保持与作者的LIDAR处理管线的一致性。

3.3.1 Video Feature Extractor (VFE)

对于视频数据,作者采用了一个金字塔结构的3D卷积神经网络,随后是针对不同尺度的时间注意力机制:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

采用多尺度方法,作者能够捕捉到视频数据中的精细运动模式和更广泛的时间背景。

3.3.2 Text Feature Extractor (TFE)

为了处理文本描述,作者使用一个多级语言模型,该模型既捕获了细微的语义信息,也捕获了高层次的概念:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

层次化文本处理使得作者的模型能够理解文本中特定描述的动作,以及总体主题或背景。

Cross-Modal Guided Attention (CMGA)

作者的框架中的一个关键创新是利用LIDAR信息引导视频和文本数据的处理。这种跨模态注意力机制使作者能够利用LIDAR提供的精确空间信息来增强对视觉和文本输入的理解。

对于每个尺度的视觉域:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !


同样,在文本领域:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

该机制使模型能够在LIDAR数据捕获到的空间配置下,专注于视频或文本中最相关的部分。例如,它可能有助于模型在LIDAR数据表明有人存在的区域,更加关注视觉特征。

Adaptive Fusion Module (AFM)

为了有效地结合来自三个模态(LiDAR、视觉和深度)的信息,作者引入了一种基于TimeSformer的Adaptive Fusion Module(AFM)[2]。这使得作者的模型能够根据当前上下文动态地调整每个模态的重要性,同时建模跨帧的时间依赖性。AFM在多个尺度上运行,以捕捉细粒度和粗粒度的特征。对于每个尺度k,作者首先将所有模态的特征拼接在一起:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

代表50iDAR 特征, 代表视觉特征, 代表深度特征在尺度 处的信息。当前时间步 的 ConCat 特征 融合了所有模态的信息。然后,作者使用视频理解中的基于 Transformer 的架构 TimeSformer 对这个 ConCat 特征进行处理:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

时间自注意力机制在时空域内捕获多模态数据中的复杂时空关系。每个尺度的输出 编码了这些关系。然后,TimeSformer 的输出用于计算每个模态的适应性权重:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

在这里, 是一个多层感知机,将 TimeSformer 的输出映射到三维向量(每个模态一个维度)。softmax 函数确保权重和为 1,使作者能够将其解释为每个模态的相对重要性。然后,这些权重用于将模态进行融合:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

这一加权求和允许模型动态地强调每个特定实例中最有信息量的模态,并调整大小。最终的融合表示将来自所有尺度的信息组合在一起:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

通过将所有尺度的融合特征拼接在一起,作者得到了一个多尺度的表示,它既捕捉到了细粒度的细节,也捕捉到了更高层次的结构。这种自适应融合机制增强了作者的模型在不同场景下的鲁棒性。


例如,在低光条件下,模型可能更多地依赖于激光雷达和深度信息,而在复杂的城市环境中,它可能优先考虑视觉特征。融合的多尺度性质还允许模型根据每个任务和环境的最相关空间尺度进行自适应聚焦。  ### Hierarchical Activity Decoder  作者的分层活动解码器预测多个粒度的活动,反映了群体活动的层次性。作者采用级联方法,其中更宽粒度的预测信息指导更精细的预测:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

这层分级的解码使得作者的模型能够在不同预测层次上保持一致性,并利用更高层次的上下文进行更精细的预测。

Loss Function

作者设计的损失函数旨在在所有尺度和粒度 Level 上鼓励精确的预测:

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

在这里, 是规模为 的任务损失,包括场景、组别和个体 Level 的预测损失。权重 允许作者平衡不同尺度的重要性。

是一种层次一致性损失,它鼓励不同层次(例如,确保个人行动与预测的群体活动兼容)之间的预测保持一致。

是一种时间一致性损失,它鼓励在帧之间实现平滑和一致的预测。

结合这些损失项确保作者的模型在所有粒度 Level 上都学习到做出准确、一致和时间上连贯的预测。

Inference

在推理过程中,作者的模型对多模态输入进行整个流程处理,在场景、组和个体 Level 上产生预测。作者方法的多尺度特性允许既采用自上而下(利用更广泛的上下文来指导细粒度预测)的顶端推理,也允许自下而上(将细粒度信息聚合以指导更高层次的预测)的群组活动推理。

这一全面的方法使作者的模型能够捕捉到群体活动的复杂、层次性,从而导致更准确和可解释的预测。

4 Experimental Results

Datasets and Evaluation Metrics

JRDB-PAR Dataset[17]: 该数据集包含27个个人动作类别,11个社交群体活动类别和7个全球活动类别。它包括27个视频(其中20个用于训练,7个用于测试),总共有27,920帧。在社交群体活动的多标签分类评估中,使用精确度、召回率和F1-分数(, , )。

排球数据集[19]:包含55个视频的4,830个 Token 片段(训练集3,493个,测试集1,337个)。作者仅关注WSGAR实验中的群体活动标签。评估指标包括多类分类准确率(MCA)和合并MCA。

NBA数据集[42]:包含181个NBA视频的9,172个 Token 剪辑(7,624个用于训练,1,548个用于测试),这些剪辑仅标注了群体活动。评估通过使用多类分类准确率(MCA)和每类平均准确率(MPCA)来解决类别不平衡问题。

Implementation Details

LiGAR的实现使用了PyTorch [27]和Open3D 0.13 [44]进行高效的LiDAR点云处理。对于视频特征提取器(VFE),作者使用了一个预训练Kinetics-400 [22]的3D ResNet-50 [35]架构。文本特征提取器(TFE)基于BERT-base [12],在训练过程中进行微调。作者的多尺度处理实现为K=3个尺度,捕捉所有模态下细粒度、中粒度和粗粒度的特征。在作者的AFM(如第3.5节所述)中,TimeSformer采用与原始论文[2]相似的配置,但进行了调整以处理多尺度、多模态输入。

训练策略:

  1. 在JRDB-PAR上预训练LiGAR模型,使用所有模态(RGB,LiDAR,IMU)。
  2. 在Volleyball和NBA数据集上进行微调,仅使用RGB数据。
  3. 在所有数据集上进行推理时,作者只使用RGB视频输入来展示模型的适应性。

作者使用Adam优化器[24],学习率设为1e-4,批量大小为32。每20个epoch,学习率减少0.1。训练在4块NVIDIA A100 GPU上进行。

Comparison with State-of-the-Art Methods

性能在JRDB-PAR数据集上的表现:作者在具有复杂现实世界场景的多样化群体活动的JRDB-PAR数据集[17]上评估LiGAR。表1展示了我方法与几种最先进的比较结果。

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

LiGAR在所有指标上显著优于现有方法,实现了61.2%的精度(),58.8%的召回率(),和59.3%的F1-score()-分别比前最好方法SoGAR提高了11.9%,11.7%,和10.6%。这种优越性能归功于LiGAR的有效集成RGB,LiDAR和文本数据,以及其高效的架构。LiGAR实现了这些结果,证明了作者的多尺度LiDAR变换和跨模态引导注意组件的有效性。这些进步使LiGAR能够更好地应对现实场景中的群体活动识别复杂性,从而推动多模态GAR的最先进水平。

排球和NBA数据集上的性能比较:表2展示了LiGAR在排球[19]和NBA[42]数据集上的性能对比。在弱监督设置下,LiGAR在两个数据集上都优于现有方法。在排球数据集上,LiGAR实现了93.1% MCA和95.4% M-MCA,分别比之前的最佳弱监督方法提高了1.3%和0.9%,甚至超过了几种全监督方法。对于NBA数据集,LiGAR的表现尤为显著,实现了87.4% MCA和79.4% MPCA,分别比之前的最佳提高了4.1%和5.9%。重要的是,LiGAR仅使用14.2M参数就实现了这些结果,使其在竞争模型中最具效率。

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

李格拉斯(LiGAR)在处理多模态信息及多尺度处理方面表现出色,尤其是在更具挑战性的NBA数据集上。这种方法使得李格拉斯能够捕捉到单模态或单尺度方法可能遗漏的复杂时空关系和群体动态。在NBA数据集上的MPCA(模态聚类分析)的巨大改进(5.9%)表明,李格拉斯特别擅长识别多样性群体活动,解决了现实场景中常见的类不平衡问题。

此外,李格拉斯在弱监督设置中能够优于完全监督方法,表明其在有限标注下的鲁棒性。这在实际应用中具有关键优势,因为在某些情况下详细标注可能不切实际。作者在补充材料的第一节中还进行了使用不同 Backbone 网络的额外实验。

Ablation Studies

作者进行了多个消融实验来验证LiGAR设计选择的可靠性,这些实验使用了JRDB-PAR数据集。然而,作者在补充材料中提供了关于排球和NBA数据集的更多消融实验结果,以及损失的影响。

4.4.1 Impact of Multi-modal Fusion

表3展示了LiGAR中RGB、LiDAR和文本模态的互补性。仅使用RGB的 Baseline 模型在方面取得了51.2%的分数,而添加LiDAR数据后,性能显著提升到56.5%,强调了3D结构信息的价值。RGB与文本的组合模型在方面取得了53.8%,突显了文本数据的上下文优势。全多模配置模型在方面取得了最佳性能,为59.3%,相较于仅使用RGB的 Baseline 提高了8.1个百分点。这一显著的改进,再加上精确度和召回率的持续改进,证实了作者的假设,即集成互补模态显著增强了群体活动识别。

在LiGAR中,RGB、LiDAR和文本数据的结合产生了协同效应,使作者能够更全面地理解群体活动,证明了作者的多模态融合方法在利用多样化数据源进行强大识别的有效性。

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

4.4.2 Contribution of Each Component

表4说明了每个LiGAR组件的关键作用。多尺度激光雷达 Transformer (MLT)最为关键,其去除导致从55.4%下降到55.4%,强调了多尺度激光雷达处理的重要性。移除跨模态引导注意力(CMGA)将降低到57.1%,突显了其在跨模态特征对齐方面的有效性。自适应融合模块(AFM)贡献了1.0个百分点的改进,使最终表示更精确地预测。

值得注意的是,完整的LiGAR模型性能(59.3% )超过了单个组件贡献的总和,表明了协同作用。各组件在精度上的持续改进和召回率上的提高表明了它们在减少假阳性率和假阴性率方面的有效性。本ablation study确认了每个LiGAR组件(MLT,CMGA和AFM)在创建多模态群体活动识别强大框架中的重要性。

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

4.4.3 Impact of Hierarchical Processing

表5揭示了LiGAR多尺度方法的重要性。单级变体实现了的54.6%,而引入第二级提升后,性能达到57.7%,提高了3.1个百分点。完整的三级模型进一步提高了到59.3%,表明在捕捉个体动作、小群体互动和场景级活动之间达到最佳平衡。随着层次 Level 的增加,精确度和召回率的一致提高表明在不同活动类型上提高了准确性。

单级和三级模型之间的4.7个百分点差距强调了LiGAR中层次处理的重要性,使不同空间和时间分辨率的信息得到有效利用。本研究证实,LiGAR的层次处理对于其优越性能至关重要,每一层都为模型识别群体互动的多尺度性质做出了重要贡献。作者在补充材料第2节的Volleyball和NBA数据集上进行了上述消融研究。

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

Visualization

图3展示了LiGAR及其变体在排球、NBA和JRDB-PAR数据集上学习到的特征表示的t-SNE可视化。从基础模型到完整的LiGAR,可以看出特征判别能力的明显提升。在基础模型中,类别混杂在一起,说明分离度较差。引入CMGA后,开始出现明显的聚类,表明跨模态特征对齐有所改善。增加AFM进一步细化了这些聚类,突显了其在不同时空域中自适应特征融合的作用。完整的LiGAR在所有数据集上实现了最独特且紧凑的聚类,特别是在复杂的JRDB-PAR场景中表现得尤为明显。

这种视觉分析证实了作者的定量结果,说明了LiGAR在为各种群体活动学习判别性特征方面具有优越能力。各个数据集上的一致性改进模式强调了LiGAR的多模态、层次化方法在捕捉群体互动的细微动态方面的普遍性和有效性。作者将在补充材料第3节中展示不同模态组合的t-SNE可视化。

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !

5 Discussion

LiGAR框架通过其创新的多模态和层次方法解决了群体活动识别的关键挑战。在核心层面,LiGAR利用激光雷达数据作为结构骨架,实现视觉和文本信息的有效整合。这种多模态融合,根据上下文动态加权,增强了在不同场景下的鲁棒性。框架的多尺度处理与群体活动的固有层次性质相吻合,捕捉从个体行为到场景级动态的相互作用。LiGAR在预测中保持时间一致性,由激光雷达运动信息引导,对于理解群体活动随时间的变化至关重要。模型的简化损失函数,结合任务特定目标、层次和时间一致性,提供了平衡的训练方法,避免了过于复杂的公式的问题。通过利用每个模态的优势 – 激光雷达的精确空间信息、视频的外观细节和文本的语义上下文 – LiGAR展示了一种新颖的方法来处理现实场景中常见的挑战,例如不同的环境条件和遮挡。这种创新地将激光雷达作为引导模态的集成代表了群体活动识别的重大进步,为复杂、现实环境中的更强大和适应性 AI 系统铺平了道路。

6 Conclusion

作者介绍了LiGAR,一种用于群组活动识别的多模态框架,该框架利用LiDAR数据来增强视觉和文本信息处理。

LiGAR的多尺度LiDAR Transformer、跨模态引导注意力以及自适应融合模块在各种数据集上实现了最先进的性能,有效地捕捉了从个体行为到场景级互动的群组动态。大量实验验证了LiGAR组件和多模态方法的优势。

值得注意的是,即使在没有LiDAR数据进行推理时,LiGAR也能保持高精度,这证明了其鲁棒性和效率。

这些进展将LiGAR定位为一种多功能的解决方案,其应用范围从体育分析到监控。

参考文献

[0]. LiDAR: LiDAR-Guided Hierarchical Transformer for.


最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。


AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。


长按扫描下面二维码,加入知识星球。

LiGAR:基于LiDAR的多级群活动识别分层 Transformer !




  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注