MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

RGB-D显著目标检测(SOD)的目的是在图像中准确地确定最显眼区域。尽管传统的深度模型严重依赖卷积神经网络提取器,忽视了长程上下文依赖关系,但后续基于 Transformer 的模型在某种程度上解决了这个问题,但引入了高计算复杂度。

此外,从深度图获取空间信息已被证明对于这个任务是有效的。

这个问题的一个主要挑战是如何有效地融合RGB和深度信息的互补信息。

在本文中,作者提出了一种名为MambaSOD的双Mamba驱动跨模态融合网络,用于RGB-D SOD。

具体来说,作者首先为RGB和深度设计了一个双Mamba驱动的特征提取器,以在多个模态输入中建模多模态输入中的长程依赖关系,其复杂度为线性。

然后,作者设计了一个捕捉到的多模态特征的跨模态融合Mamba,以充分利用RGB和深度特征之间的互补信息。

据作者所知,这是第一次探索Mamba在RGB-D SOD任务中的潜力,提供了新的视角。在六个主要的数据集上进行的众多实验表明,作者的方法在16种最先进的RGB-D SOD模型中具有优势。

源代码将在https://github.com/YueZhan721/MambaSOD发布。

I Introduction

显著目标检测(SOD)是计算机视觉领域的一个任务,它专注于识别图像或视频场景中最突出的物体。这一任务在图像和视频处理领域具有重要的意义,例如视频分析[1],视觉追踪[2],以及图像质量评估[3]。

尽管在RGB SOD领域取得了显著的进步,但当物体与相似的外观环境混合或处于杂乱的背景中时,检测性能会明显降低。为解决这一挑战,深度图作为补充输入被利用,以增强对图像空间线索的理解。这样,一些研究[7,8,9]表明,将深度信息作为额外资源相结合,在严格要求场景中实现了卓越的RGB-D SOD性能。因此,RGB和深度的有效特征融合对于显著目标检测至关重要。

至今,许多针对显著性检测模型的RGB-D特征融合方法已经被提出。例如,DIF [12]提出直接将深度线索注入到RGB特征中,而HiDAnet [17]采用空间注意力和通道注意力来增强后续融合阶段的自我模态特征。总的来说,当前的RGB-D特征融合策略主要有两种范式。第一种是将深度特征注入到其对应物(如图1(a)所示),而第二种是采用卷积神经网络、通道或空间注意力来增强后续RGB-D特征融合阶段的自我模态特征(如图1(b)所示)。然而,上述工作在跨模态特征融合过程中的长程依赖建模方面关注较少。因此,作者提出了一种跨模态融合Mamba(CMM),它对于在RGB-D特征融合过程中,对跨模态相关性的长程依赖建模和模态特定的特征增强是有效的,如图1(c)所示。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

此外,卷积神经网络(CNN)作为RGB-D SOD任务的关键 Backbone ,在提取多级特征方面非常流行。例如,VGG [19] 和 ResNet [20] 允许模型捕捉到精细且丰富的局部特征细节。较新的架构如 DenseNet [21] 和 EfficientNet [22] 进一步增强了特征提取能力和网络性能。MobileNet [23] 使 CNN 可以在边缘设备上部署。尽管取得了这些进展,卷积操作仍然局限于局部特征提取,其建模全球信息的能力有限。

然而,基于Transformer或其变体的模型在自注意力机制导致的资源数量平方增长下,面临显著的计算复杂性。因此,Transformer-based backbones [24, 25, 26]已被引入到RGB-D SOD领域,用于长程依赖建模。例如,受到Vision Transformer [24]和Swin Transformer [25]的工作启发,SwinNet [27]和MITF-Net [28]在backbone中采用了transformer模块,以提取更多的全局特征。GroupTransNet [29]提出了一种用于跨层特征长程依赖学习的一组transformer。然而,基于Transformer或其变体的模型在自注意力机制导致的资源数量平方增长下,面临显著的计算复杂性。

因此,作者提出了一种双Mamba驱动的跨模态融合网络用于RGB-D SOD,名为MambaSOD。与之前采用基于CNN或Transformer的特征提取网络的方法不同,作者是在RGB-D SOD领域首次引入双Mamba Backbone 网络。主要原因在于,基于Mamba的 Backbone 网络[30]能够在保持线性复杂度的同时,模拟图像内的长期依赖关系。更重要的是,为了解决有效跨模态特征融合的问题,作者提出了一种跨模态融合Mamba,以模拟跨模态相关性的长期依赖关系并增强特定模态的特征,使这两个模态有足够的交互以学习RGB-D特征融合的互补特征。最后,作者采用一种多级精炼模块作为作者的解码器来预测准确的显著图。

作者的主要贡献如下:

  1. 作者提出了一种双Mamba驱动的跨模态融合网络MambaSOD用于RGB-D SOD,该网络利用双Mamba基础架构进行RGB和深度特征提取。据作者所知,作者是首次将Mamba基础架构引入RGB-D SOD领域,并进行了大量实验证明其有效性。

  2. 作者提出了一种跨模态融合Mamba模块,该模块可以增强特定模态的特征和跨模态相关性的长期依赖建模。具体来说,在跨模态相关性的长期依赖建模中,作者将两个模态的特征映射到共享空间,以实现互补特征学习,这对于RGB-D特征融合至关重要。

  3. 作者在多个流行数据集上进行了广泛的实验,结果表明作者提出的Mamba-SOD在性能上取得了优秀表现,这证明了作者的方法的有效性和优越性。

II Related Work

Backbone of RGB-D SOD

在RGB-D SOD领域,有效提取不同模态特征至关重要。最初,特征提取 Backbone 网络主要是一个单流网络。范等人[31]使用单流 Backbone 网络提取和融合特征,结合门控机制解决深度图质量问题。符等人[32]选择共享CNN Backbone 网络获取RGB和深度相关的特征,旨在通过联合学习实现跨模态信息共享。然而,单流网络由于网络复杂度较低和参数较少,训练相对容易。但它们在提取跨模态特征方面也可能遇到挑战。例如,当RGB和深度信息高度变化时,单网络可能难以同时优化处理这些不同类型的数据。

针对单流 Backbone 网络的问题,一些研究行人提出了双流 Backbone 网络。总的来说,双流 Backbone 网络的方法可以分为基于CNN的方法和基于Transformer的方法。在初始网络中,Li等人[33]简单地堆叠卷积核和最大池层,这使得网络能够逐步增加深度层的同时,有效地捕获更复杂的特征。几乎与此同时,He等人[35]提出了ResNet网络,其中首次引入了残差学习概念。通过使用 Shortcut ,信息可以直接从较浅层传递到较深层,这可以解决深度网络训练过程中的退化问题。

目前,许多RGB-D SOD模型都使用ResNet作为 Backbone 。例如,BBSNet[36]基于ResNet50进行双流 Backbone 设计,分别提取RGB和深度特征。后来,考虑到移动和边缘设备,受到MobileNet[23]工作启发,Wu等人[11]将MobileNetV2引入RGB-D SOD作为特征提取网络,这既减少了计算和模型大小,又保持了合理的性能。然而,这些方法都采用CNN层,且缺乏全局建模能力,导致在SOD任务上的性能受到限制。

成功应用于自然语言处理的 Transformer 的实例,激发了研究行人将其在图像处理中的可行性进行评估。视觉 Transformer [24]将图像分割为多个固定大小的 Patch ,并通过自注意力机制捕捉 Patch 之间的复杂关系。这样,整个图像范围内的任何区域都可以动态地关注,从而有效地捕获全局依赖性。Swin Transformer [25]通过限制自注意力仅在局部窗口内的计算来聚合不同 Level 的信息,然后逐渐扩大这些窗口的大小,旨在降低计算量,同时保留 Transformer 建模全局信息的优势。金字塔视觉 Transformer [37]设计了一种渐进缩小的金字塔和空间-降维注意力,以实现高分辨率密集预测,同时有效地降低了模型计算。然而,注意力机制导致基于 Transformer 的算法具有大量参数和平方计算复杂度。

为此,作者受到Mamba架构的启发,该架构因其同时保持计算效率和局部及全局上下文信息的建模能力而著称,作者引入了一个基于Mamba的 Backbone 网络。

Cross-modal feature fusion in RGB-D SOD

有效的跨模态特征融合对于提高RGB-D SOD性能尤为重要。现有的跨模态特征融合模型通常分为三类:早期融合、中期融合和晚期融合。早期融合在特征提取网络之前,通过 ConCat 或其他方法将两个模态的输入合并。例如,在JL-DCF [32]中,首先将RGB和深度图 ConCat 在一起,然后特征提取 Backbone 同时从组合的RGB-D中获取线索。晚期融合是指分别提取不同模态的特征,然后将两个分支的特征融合,最后预测显著性图。Peng等人[38]通过RGB和深度分别进行显著性预测,然后将两个预测融合为最终显著性图。中期融合阶段可以进一步分为两类,如图1所示,(a)是将RGB和深度特征简单 ConCat ,(b)是在进行RGB-D融合之前,通过CNN或自注意力机制增强自模态特征。例如,[36]直接将RGB和深度特征通过元素加法融合,以实现特征融合的目标。Wang等人[39]首先计算了RGB和深度各自的相关图,然后通过像素加法进行交互跨模态特征。另一个例子是[40],在特征融合之前,通过通道注意力机制对提取的特征进行自增强。

然而,上述的中间融合方法主要采用CNN或注意力机制进行特征增强和融合,缺乏对跨模态相关性的长程依赖性的探索。因此,作者提出了一种跨模态融合Mamba,如图1(c)所示,旨在实现自模态增强,同时学习跨模态相关性作为特征互补性。

III Methodology

Preliminaries

状态空间模型的提出。 起源于卡尔曼滤波器[41],状态空间模型(SSM)可以被视为一个线性系统,该系统通过隐藏状态将输入刺激转换为输出响应。具体而言,连续时间SSM可以表示为线性微分方程(ODE),其计算方法如下:

在其中,权重参数 , , 和

离散化SSM 为了集成到深度模型中,连续时间SSM必须事先进行离散化,如结构状态空间序列模型(S4)[42]和Mamba[43]。具体而言,使用时间尺度参数将连续的转换为离散的。广泛使用的方法是零阶保持(ZOH),可以如下定义:

经过离散化后,整个SSM系统可以重现为:

此外,最终的离散SMM模型的卷积表示定义如下:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

在论文中,输入向量 包含 个 Token ,其中 表示一个一维卷积核。为了方便表示,给定一个输入向量 ,整个 SSM 操作可以简单地定义为:

2D-Selective-Scan (SS2D). 受到自然语言处理中S6扫描操作 [43] 成功的影响,作者在图像处理中采用了选择性扫描方法。然而,由于2D图像是非顺序的且具有空间信息,因此作者提出了一个SS2D模块 [30] 来适应S6,以在保持其优势的同时处理视觉数据,从而能够获取局部和全局特征。具体而言,首先将2D图像输入分割成多个块,然后以四个方向对它们进行扫描,产生四个由SSM单独处理的序列。最后,对处理过的序列进行合并操作,将分割成的块还原为2D图像。SS2D过程定义为:

其中 表示二维图像输入, 表示扫描输出。对于 SS2D 更多的细节,感兴趣的读者可以参考原始工作 [30]。

Network Architecture

如图2所示,所提出的方法包括基于Mamba的 Backbone 网络[30]、跨模态融合Mamba(CMM)和多级细化(MR)解码器。具体而言,对于输入的RGB和深度信息,作者首先采用基于Mamba的 Backbone 网络分别提取每个模态特定的特征。

然后,作者执行CMM,将层次化的RGB和深度特征融合,以获得两个模态之间交互的RGB-D特征。最后,作者利用MR将融合的RGB-D特征进行聚合,以完成最终的预测。架构如下所示。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

编码器: 作者将RGB和深度信息输入到基于Mamba的单流中,以捕捉多层特征。提取的RGB特征表示为,深度特征表示为),如图2所示。与采用基于CNN或Transformer的背後的先前的方法不同,作者是第一个将Mamba背後的单流引入到RGB-D SOD领域。

跨模态融合Mamba,通常,CMM将RGB特征和深度特征作为输入,并输出融合的RGB-D特征。作者提出的跨模态融合Mamba旨在模拟跨模态相关性并增强自模态特征。如图4所示,作者首先将提取的深度特征和RGB特征输入到Mamba块进行自模态特征增强,分别进行处理。同时,作者将深度和RGB特征进行拼接,以模拟它们之间的跨模态相关性。这种操作通过将不同模态的信息融合,从而丰富了通道特征的多样性。然后,通过跨模态相关性特征对增强的RGB和深度特征进行控制,以鼓励互补特征学习。最后,作者通过逐元素加法将处理后的RGB和深度特征融合,得到图像般的RGB-D特征

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

解码器。 作者使用多级细化(MR)模块来聚合RGB-D特征,处理后的特征表示为。如图3所示,MR模块的目的是有效利用多级RGB-D特征进行显著目标检测。作者首先上采样输入特征。得到的结果特征分别用于通过逐元素乘法和拼接增强其下一阶段特征,这一点由以前的工作[14, 18]证明是有效的。最后,作者通过逐元素加法将增强的特征合并,然后与核大小为3×3和1×1的卷积相结合。每个阶段聚合的特征表示为

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

Visual Mamba Block

Backbone 网络的作用是捕获RGB和深度输入的层次特征。具体来说,输入首先被Patch Partition模块分成 patches,这样作者就可以得到一个初始特征表示,其维度为。随后,作者使用几种类似的操作来捕获具有维度的特征,其中表示特征通道维度。它们分别设置为。每个操作包括一个下采样步骤(除了第一个阶段外),然后是多个Visual Mamba(VM)块,如图2右侧所示。

虚拟机块(VM block)是2D图像特征表示的可视对,而初始Mamba块用于处理1D语言序列。更具体地说,对于输入序列,整个VM块的计算分为两部分:第一部分计算如下:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


在另一个步骤中, 进一步计算为:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

在此处,FFN表示 FFN [30]。

Cross-modal Fusion Mamba

两者(RGB和深度图)在RGB-D SOD中都起着重要作用,尽管RGB特征包含丰富的语义线索,而深度特征包含更为区分物体布局信息。在RGB-D SOD中恰当地融合RGB和深度特征非常重要。因此,作者提出了一种新颖的跨模态融合Mamba模块。如图4所示,在结构上,CMM模块可以分为两部分:自模态增强和跨模态相关建模。

具体而言,如图4所示,CMM模块接受RGB特征 和深度特征 作为输入(在输入RGB和深度特征之前,它们都被转换为token)。输入token序列 经过 LayerNorm (layer normalization)进行初步规范化。

接下来,规范化序列被投影到 使用多层感知(MLP)。然后,应用一个带有SiLU激活函数的1D卷积层来处理 ,生成 。随后, 经过状态序列模型(SSM)进行长程依赖建模,得到 。通过Mamba进行自调制增强的过程可以定义为:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


其中 LN 和 Conv1 分别表示 LayerNorm 层和 1D 卷积层。此外,作者还可以通过学习其长期依赖性来增强深度特征:


MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


同时,为了模拟跨模态的相关性,作者将两个模态的特征映射到共享空间,并采用关注机制来鼓励互补特征学习。给定RGB特征 和深度特征 , 作者将它们 ConCat 在一起,并遵循一个基本的Mamba块来模拟跨模态的相关性。这种操作通过将来自不同通道的信息整合进来,从而增强了跨模态的相关性,丰富了通道特征的多样性。跨模态相关性建模可以表示为:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


此外,通过进行门控,以促进互补特征学习。这个过程可以表示为:

最后,将这种跨模态特征进行融合,涉及逐元素乘法和逐元素加法操作,然后是MLP、重排和逐元素卷积操作,以获得2D RGB-D特征。

这个过程可以表示为:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


IV Experiments

Experimental details

实现设置。作者的方法在PyTorch平台上实现。为了方便,深度和RGB输入都都被重置为320×320。为了增强数据集,作者进行了水平翻转和随机裁剪操作。作者使用一块NVIDIA GeForce RTX 4090 GPU来训练作者的模型并在六个不同的数据集上进行测试。

对于训练的详细信息,作者分别设置了训练周期、批量大小和初始学习率,分别为200、10和0.0001。作者采用Adam优化器来训练模型,并在训练周期达到60时将权重衰减设置为0.9。

数据集作者在六个流行的RGB-D SOD基准数据集上进行实验:STERE [52],NLPR [38],NJU2K [53],DES [54],SIP [31]和DUT [55]。NJU2K [53] 是最大的RGB-D数据集,包括1985张RGB和深度图像。NLPR [38] 包括1000对RGB-D图像,分辨率均为,全部使用Microsoft Kinect拍摄。STERE [52]数据集从互联网上获取1000对立体RGB图像及其对应的深度图。

DES [54]是一个较小的数据集,只包含一些室内场景中 captured 的135对图像。SIP [31] 也包含1000对RGB-D图像,但由一款分辨率为的手机摄像头拍摄。在DUT [55]数据集上,包括1200张RGB和深度图,存在一些具有挑战性的场景,如小目标、多个目标、低对比度和低质量深度图。

训练和测试。遵循之前的研究[56, 31],作者的方法使用特定子集的训练数据:来自NLPR的700个实例和来自NJU2K的1485个样本。NJU2K和NLPR中剩余的RGB-D对,以及所有STERE、DES和SIP数据集被视为测试数据。此外,对于DUTLF数据集,作者分别进行训练和测试。

训练损失。 在训练阶段,作者使用二进制交叉熵(BCE)作为损失函数,它衡量预测概率分布和实际标签之间的差异。它定义为:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


在这里,P 表示输出概率值,G 表示真实值。

随着作者的模型采用多级监督,整体损失可以表示如下:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


() 分别表示解码阶段中第 层的预测显著图。

评估指标

作者用四个主要的指标定量评估了作者的方法在四个方面的性能:F-measure () [57],E-measure () [58],S-measure () [59] 和 Mean Absolute Error (MAE) [60]。此外,作者还计算了 Precision-Recall (PR) 曲线以展示更全面的结果。

PR曲线用于评估方法的性能,通过在不同阈值设置下绘制精确率与召回率。通常情况下,如果曲线更靠近右上角区域(即更高的精确率和更高的召回率),意味着曲线下方的面积更大,模型的结果更好。

在PR曲线中,精确率和召回率是两个主要性能指标。精确率指的是真正为正的阳性案例所占的比例,计算公式如下:

在这里,真正的阳性(TP)是指正确预测的阳性案例,而假阳性(FP)是指错误预测的阳性样本。

在这里,错误的阴性案例(FN)是指被错误预测为阴性的情况。

F-measure()考虑了精确率和召回率的加权调和平均值,其计算方法如下:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


由于精确度的显著性,根据[52]的建议,的默认值为0.3。

真实值和预测显著图之间的相似度程度的E-度量(E-measure,Eξ)。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


在此,W×H表示图像的大小,而分别表示真实图像的特征表示和预测显著图的特征表示。

地测量()显示了 GT 和预测显著图之间的结构相似性,其计算方式如下:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


在[59]的建议下,为了平衡面积相似度和目标相似度的默认值为0.5。

均方绝对误差(MAE)用于计算模型输出与实际标签之间的误差,通过将整个图像上的所有像素误差求和并求平均得到,计算公式如下:

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !


在这里, 表示输出值, 表示实际值。

Comparison with State-of-the-art methods

参赛者。 作者在 ourselves 和另外十六种 SOTA 方法上进行了实验,以比较它们的性能。为了公平起见,作者展示的结果是通过授权代码或从作者的出版物论文中获取的,如果没有代码可用。

定量评价。表1展示了作者方法及其他SOTA方法在十六个热门数据集上的定量结果。总体而言,与SOTA方法相比,作者的众多结果表明,作者的方法取得了更令人满意的性能。具体而言,作者的性能在STERE[52]、NLPR[38]、NJU2K[53]、SIP[31]和DUTLF[55]数据集上位居第一。

此外,作者的MambaSOD在DES[54]数据集上实现了第四好的性能。这个结果的原因是DES数据集中存在少量具有部分重复显著目标的样本,这导致了作者在方法上的性能波动。然而,作者的方法超越了大多数SOTA方法,距离前三名最佳方法仅差几百分之一。上述优秀结果主要归功于作者的方法能够有效地提取局部和全局特征,并进行有效的自增强和跨模态交互。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

定性评估。图5展示了作者的方法在几个常见且具有挑战性的场景下与其他方法的定性分析。总的来说,结果表明作者提出的方法有效地分割了显著物体,这是因为它能够有效地提取和融合RGB和深度特征。首先,作者的方法在一些简单的场景中表现更好,如线条(a)和(b)。

然后,在具有鲜明边界的物体的情况下(线条(c)和(d)),作者的方法在提供更多细节以识别具有完整边缘的显著物体方面优于其他方法。接下来,对于包含多个物体的图像,如图线(e)所示,作者的方法可以有效地识别显著物体,因为作者的特征提取器可以获得与RGB和深度图相关的更丰富的线索。在对比度较低的环境中,如图线(f)和(g)所示,作者的方法克服了挑战,准确地分割物体,得益于增强的RGB-D空间特征。最后,线条(h)的示例展示了作者的方法在低质量深度图上区分显著物体的能力,这要归功于RGB和深度之间的跨模态交互。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

PR曲线。 此外,作者在四个数据集上绘制了不同方法的PR曲线,如图6所示,包括作者的方法(MambaSOD)和十六种最先进的方法。根据PR曲线的结果,大多数基于CNN的方法的性能都比作者的差。这主要是因为它们无法建模长程依赖性,导致性能下降。

一些最新的方法(2024年和2023年发表的),如PICR-Net [50],AirSOD [15],HiDNet [17]在精确率和召回率上与作者相似,但作者的MambaSOD仍略优于这些方法,这可以归因于作者CMM模块的有效跨模态相关性建模。总体而言,四个数据集上的PR曲线证明了作者的方法的有效性和优越性。定量和定性实验证明了作者提出的MambaSOD的有效性。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

参数和FLOPs分析。 作者还在参数和FLOPs方面与多个SOTA方法进行了比较,以评估不同模型的规模和计算复杂性。如表1所示,作者的模型具有中等参数数量78.9M和低FLOPs 16.9G,同时实现了有前景的模型性能。

Ablation Study

进行了几项消融实验,以评估作者提出的算法在NJU2K [53], NLPR [38], STERE [52], DES [54], SIP [31]和DUT [55]数据集上的性能。

作者的 Backbone 网络的有效性。 为了评估不同 Backbone 网络的有效性,作者在编码器中使用不同的 Backbone 网络进行比较。具体来说,作者选择 ResNet50 [35],Swin Transformer(小版本) [25],以及作者基于 Mamba 的 Backbone 网络作为特征提取器,在编码阶段进行比较。然后,作者在四个常用的数据集上进行这些模型的检测性能比较,包括 NLPR [38],STERE [52],SIP [31],和 DES [54]。

表2中的实验结果显示,基于Mamba的 Backbone 网络在所有数据集上都优于其他 Backbone 网络。具体来说,作者的特征提取器的指标达到了0.934,高于ResNet-50的0.912和Swin-t的0.915。在数据集中,STERE [52],SIP [31],ResNet-50和Swin-t都无法达到足够准确的结果,而作者的模型仍然保持了更好的性能。

这表明基于Mamba的 Backbone 网络在处理不同质量的RGB和深度信息时更具鲁棒性。基于Mamba的多数据集上的 Backbone 网络的优秀性能可以归因于其有效地提取了局部和全局特征,这对于RGB-D SOD尤其重要。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

作者的跨模态融合的有效性。作者进一步进行实验以证明跨模态融合模块的有效性。首先,作者比较了三种特征融合策略,包括模型A(进行简单的逐元素加法),模型B(应用CMM但删除间模态分支)和完整的CMM模块。如表3所示,模型A首先提供了基础性能,这为作者评估CMM的益处提供了初始基准。与模型A相比,模型B的性能提升表明,即使在没有间模态相关分支的情况下,CMM仍可以提供性能提升。

作者的方法获得了最佳性能,证明了进一步增强了作者跨模态融合模块的有效性。具体而言,在模型A、模型B和作者模型中,分别从0.939,0.943增加到0.947。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

此外,作者对带有(变体)间模态分枝的CMM模块进行了定性可视化分析。如图7所示,作者可以得出结论,不同模态之间的交互作用尤为关键。具体来说,它能够克服单模态或简单多模态添加操作带来的局限性。更重要的是,间模态关联建模使模型能够捕获更多有用的信息,并剔除无用或甚至具有干扰性的线索。如图7的第一行所示,深度图包含一些干扰信息,因此变体CMM也将女性识别为显著目标。得益于跨模态交互,完整的CMM成功通过利用RGB的互补线索,抑制了误导性信息。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

对比实验在特征融合模块上。为了进一步证明作者CMM的优势,作者将作者的特征融合模块替换为其他SOTA方法的模块,包括MobileSal(TPAMI’21)[11],DCMF [39](TIP’22),HIDANet(TIP’23)[17]和AirSOD(TCSVT’24)[15]。如表4所示,作者的跨模态融合Mamba模块在其他方法中使用的模块表现更好。总的来说,作者的网络在拥有较高模型性能的同时,还具有中等参数和FLOPs。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

失败案例。 作者展示了一些代表性失败示例,以分析作者方法的不充分性。如图8所示,第(a)和(b)行的某些低质量深度图导致模型无法准确区分显著物体和背景;而(c)和(d)行的RGB图像信息过于冗余和混乱,这也增加了方法识别显著目标的任务难度。在这些场景中,作者提出的方法在某种程度上未能准确分割显著物体。值得注意的是,即使是一些最先进的SOTA方法,如BBSNet [36],PICR-Net [50],和HIDANet [17]也未能实现令人满意的表现。

MambaSoD 双 Mamba 驱动的跨模态融合网络,用于目标检测 !

V Conclusion

在这篇论文中,作者提出了一种新颖的方法,命名为MambaSOD,用于流行的RGB-D SOD任务。

首先,不同于之前使用ResNet或Transformer 作为主干网络的工作,作者是首位将基于Mamba的主干网络引入到RGB-D SOD领域的,这得益于其长序列建模能力。

其次,受状态空间模型的启发,作者提出了一个跨模态融合的Mamba,有效地合并了RGB和深度特征,这有助于模型整体性能的提升。提出的方法实现了全局特征提取,并以线性复杂度促进了跨模态信息交换。

作者的方法在六个广泛使用的数据集上进行了评估,实验结果表明,作者的MambaSOD在与其他SOTA方法的比较中取得了优越的性能。

例如,在STERE、NLPR、NJU2K、DUTLF和SIP数据集上,作者的方法取得了最佳的整体性能。

实验结果验证了作者方法的有效性和优越性。未来,作者计划开发一个更轻量级的模型,同时保持当前方法的性能。

参考文献

[0]. MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection.

点击上方卡片,关注「AI视界引擎」公众号

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注