收录于话题
2024年11月7日arXiv cs.CV发文量约75余篇,减论Agent通过算法为您推荐并自动化整理为卡片供您参考,预计为您节省30分钟浏览arXiv的时间。
北京邮电大学和清华大学的研究团队提出了StreamingBench这一全面的基准测试,用于评估MLLMs的流视频理解能力。该基准测试通过18个任务、900个视频和4,500个问答对来评估实时视觉理解、全方位理解和上下文理解。
【Bohr精读】
https://j1q.cn/vuPpc7uE
【arXiv链接】
http://arxiv.org/abs/2411.03628v1
【代码地址】
https://github.com/THUNLP-MT/StreamingBench
博洛尼亚大学,约翰霍普金斯大学团队介绍了Touchstone Benchmark。这是一个大规模、多样化、严格的医学图像分割算法评估平台,包括来自全球多家医院的大量标注CT扫描图像,超出分布测试集,并专注于统计显著性和算法创新。
【Bohr精读】
https://j1q.cn/mRjuPDPd
【arXiv链接】
http://arxiv.org/abs/2411.03670v1
【代码地址】
https://github.com/MrGiovanni/Touchstone
上海科技大学、瑞士洛桑联邦理工学院和上海智能视觉与成像工程研究中心的团队提出了一种新颖的生成增强方法和训练策略,使模型能够在多个分布转移下有效泛化到协变量转移区域,同时精确识别语义转移区域,以实现鲁棒的语义分割。
【Bohr精读】
https://j1q.cn/obHBdwK9
【arXiv链接】
http://arxiv.org/abs/2411.03829v1
【代码地址】
https://github.com/gaozhitong/MultiShiftSeg
斯坦福大学的研究团队介绍了RAVL方法,该方法通过发现和减轻局部图像特征水平上的虚假相关性,利用区域级聚类方法和新颖的区域感知损失函数来提高微调视觉语言模型(VLMs)的鲁棒性。
【Bohr精读】
https://j1q.cn/ZpL9GExI
【arXiv链接】
http://arxiv.org/abs/2411.04097v1
【代码地址】
https://github.com/Stanford-AIMI/RaVL
麻省理工学院、亚马逊团队提出了一种基于3D高斯喷洒(3DGS)的方法,用于检测三维场景中物体重新排列的情况。通过比较在不同时间拍摄的两组未对齐图像,利用3DGS的新颖视角渲染和EfficientSAM的零样本分割能力来估计三维物体级别的变化。
【Bohr精读】
https://j1q.cn/WyZIhTHm
【arXiv链接】
http://arxiv.org/abs/2411.03706v1
【代码地址】
https://github.com/520xyxyzq/3DGS-CD
武汉大学的研究团队提出了一种在扩散模型中嵌入强大且隐形水印的方法。他们介绍了ROBIN,通过使用对抗优化算法生成提示信号,积极隐藏水印在最终图像中,使得水印更强大而不影响图像质量。
【Bohr精读】
https://j1q.cn/8tCLpmWy
【arXiv链接】
http://arxiv.org/abs/2411.03862v1
【代码地址】
https://github.com/Hannah1102/ROBIN
北京理工大学的研究团队提出了LCP-Fusion方法,这是一个神经隐式SLAM系统,采用混合体素八叉树结构,包含特征网格和SDF先验,用于可扩展和稳健的地图构建和跟踪。该方法通过基于视觉重叠的新型滑动窗口选择策略和相对姿态约束的变形损失进行增强。
【Bohr精读】
https://j1q.cn/lRD6ACsx
【arXiv链接】
http://arxiv.org/abs/2411.03610v1
【代码地址】
https://github.com/laliwang/LCP-Fusion
北京大学深圳研究生院和伯明翰大学的研究团队提出了SCGaussian方法,这是一种使用匹配先验学习3D一致场景结构的结构一致高斯喷洒方法。它引入了一种混合高斯表示,由基于射线的高斯基元和绑定到匹配射线的普通非结构高斯基元组成,以优化高斯基元的位置和形状,使其在3D中保持一致。
【Bohr精读】
https://j1q.cn/cV35OUIt
【arXiv链接】
http://arxiv.org/abs/2411.03637v1
【代码地址】
https://github.com/prstrive/SCGaussian
南昌大学, 伊利诺伊大学厄巴纳–香槟分校, 中国科学院的研究团队提出了一种基于时间交错采集方案的动态MRI重建方法,称为全局到局部扩散模型(GLDM)。该方法利用时间交错采集方案构建两个训练数据集,并采用两阶段迭代细化扩散策略交替优化图像的全局结构和局部细节,实现零样本重建。
【Bohr精读】
https://j1q.cn/E7yKz8jH
【arXiv链接】
http://arxiv.org/abs/2411.03723v1
【代码地址】
https://github.com/yqx7150/GLDM
香港中文大學和列治文大學的研究人员提出了一种名为MM-Detect的多模态数据污染检测框架。该框架专为多模态大型语言模型(MLLMs)设计,通过选项顺序敏感性测试和扰动标题的槽猜测等方法,能够识别视觉问答任务中的污染。
【Bohr精读】
https://j1q.cn/lgrsKVE9
【arXiv链接】
http://arxiv.org/abs/2411.03823v1
【代码地址】
https://github.com/MLLM-Data-Contamination/MM-Detect
南昌大学、天津大学、深圳先进技术研究院的研究团队提出了一种子空间扩散模型(Sub-DM)用于MRI重建。该模型利用正交分解将扩散过程迁移到低维子空间,加速采样过程并提高重建质量。
【Bohr精读】
https://j1q.cn/BB9s5fKE
【arXiv链接】
http://arxiv.org/abs/2411.03758v1
【代码地址】
https://github.com/yqx7150/Sub-DM
穆罕默德·本·扎耶德人工智能大学团队推出了FedRISE方法,这是一个针对联邦学习的强大聚合器,利用方差减少的稀疏梯度进行符号投票策略,以确定每个梯度的最佳方向,使训练更具抗干扰性,特别是当攻击者可以访问数据和聚合方法时。
【Bohr精读】
https://j1q.cn/4dDkMfRx
【arXiv链接】
http://arxiv.org/abs/2411.03861v1
【代码地址】
https://github.com/anonymous/
东北大学与南洋理工大学的研究团队提出了一种高效的傅立叶滤波网络,采用对比学习用于基于无人机的不对齐双模显著目标检测。其中包括语义对比对齐损失,用于在语义级别对齐RGB和热红外模态,以及同步对齐融合模块,用于在通道和空间维度对齐和融合双模特征。
【Bohr精读】
https://j1q.cn/N1gdawYe
【arXiv链接】
http://arxiv.org/abs/2411.03728v1
【代码地址】
https://github.com/JoshuaLPF/AlignSal
中南大学和奥卢大学的研究人员提出了HRDecoder,一个高分辨率解码器网络,它集成了一个高分辨率表示学习模块来捕获细粒度的局部特征,以及一个高分辨率融合模块来融合多尺度预测,用于眼底图像病变分割。
【Bohr精读】
https://j1q.cn/d5xH3Xyu
【arXiv链接】
http://arxiv.org/abs/2411.03976v1
【代码地址】
https://github.com/CVIU-CSU/HRDecoder
欢迎关注减论,持续输出有深度的人工智能极减理解,提升信息获取效率和认知维度。看完点颗小星星再走呗~