【11.26-arXiv】南理工提出时序一致性3D人像方法!

收录于话题

#3分钟极减Arxiv

20241126arXiv cs.CV发文量约200余篇,减论Agent通过算法为您推荐并自动化整理为卡片供您参考,预计为您节省88分钟浏览arXiv的时间。


【11.26-arXiv】南理工提出时序一致性3D人像方法!

南京理工大学、南京大学和北京大学联合提出的ConsistentAvatar方法,通过建模时间表示生成高保真说话头像。该方法确保帧间稳定性,并使用时间一致的扩散模块对齐高频特征,改善外观、3D效果、表情和时间一致性。

Bohr精读】

https://j1q.cn/0eAuJgCO

arXiv链接】

http://arxiv.org/abs/2411.15436v1

【代码地址】

https://njust-yang.github.io/ConsistentAvatar.github.io/


【11.26-arXiv】南理工提出时序一致性3D人像方法!

中佛罗里达大学、穆罕默德·本·扎耶德人工智能大学和阿尔托大学联合提出了All Languages Matter Benchmark (ALM-bench)方法。该方法是一个评估框架,针对100种语言中的大型多模态模型,特别关注文化多样性和低资源语言。ALM-bench通过多样化的问题格式和从不同文化角度精心策划的内容,实现了对模型的全面评估。

Bohr精读】

https://j1q.cn/r9QnXWG2

arXiv链接】

http://arxiv.org/abs/2411.16508v1

【代码地址】

https://mbzuai-oryx.github.io/ALM-Bench/


【11.26-arXiv】南理工提出时序一致性3D人像方法!

新加坡国立大学与浙江大学联合开发了MovieBench,一个用于长视频生成的分层数据集。该数据集包含叙事连贯、角色一致的电影长度视频,并采用结构化数据格式,以提升分析和训练效果。

Bohr精读】

https://j1q.cn/mJpPFaLJ

arXiv链接】

http://arxiv.org/abs/2411.15262v1

【代码地址】

https://weijiawu.github.io/MovieBench/


【11.26-arXiv】南理工提出时序一致性3D人像方法!

浙江大学、南洋理工大学和阿里巴巴集团联合推出了AnyEdit,一个包含250万高质量编辑对的多模态指令编辑数据集,涵盖20种类型和五个领域。同时,提出了一种新颖的AnyEdit Stable Diffusion模型,以提升基于指令的图像编辑性能。

Bohr精读】

https://j1q.cn/JAPOIZrj

arXiv链接】

http://arxiv.org/abs/2411.15738v1

【代码地址】

https://dcd-anyedit.github.io/


【11.26-arXiv】南理工提出时序一致性3D人像方法!

上海人工智能实验室与莫纳什大学提出了OphCLIP方法,这是一个分层检索增强的视觉语言预训练框架,用于理解眼科手术流程。该方法利用大规模的视频文本对数据集,通过将短片段与详细叙述对齐,并从无声手术视频中检索相关内容,增强表示学习。

Bohr精读】

https://j1q.cn/eVdaqzBZ

arXiv链接】

http://arxiv.org/abs/2411.15421v1

【代码地址】

https://github.com/minghu0830/OphCLIP


【11.26-arXiv】南理工提出时序一致性3D人像方法!

复旦大学、中国科学技术大学和北京交通大学联合提出了SVTRv2方法。这是一种改进的基于CTC的场景文本识别模型,通过引入多尺寸调整策略、特征重排模块和语义引导模块,有效处理文本不规则性,提升了准确性和推理速度。

Bohr精读】

https://j1q.cn/rxDldLcx

arXiv链接】

http://arxiv.org/abs/2411.15858v1

【代码地址】

https://github.com/Topdu/OpenOCR


【11.26-arXiv】南理工提出时序一致性3D人像方法!

中国科学院自动化研究所与北京大学提出了一种尖峰发放近似(SFA)方法,优化了脉冲神经元在脉冲神经网络(SNNs)中的性能和训练效率。该方法使脉冲神经网络在ImageNet上达到了最先进的准确性,同时保持低功耗。

Bohr精读】

https://j1q.cn/9N8SianS

arXiv链接】

http://arxiv.org/abs/2411.16061v1

【代码地址】

https://github.com/BICLab/Spike-Driven-Transformer-V3


【11.26-arXiv】南理工提出时序一致性3D人像方法!

南开大学提出了AODRaw数据集,用于RAW图像目标检测。该研究指出了sRGB预训练的局限性,并提出了一种方法,通过从sRGB模型中提取知识来增强RAW预训练,从而提升在不同条件下的检测性能。

Bohr精读】

https://j1q.cn/QvYGhbmR

arXiv链接】

http://arxiv.org/abs/2411.15678v1

【代码地址】

https://github.com/lzyhha/AODRaw


【11.26-arXiv】南理工提出时序一致性3D人像方法!

北卡罗来纳大学教堂山分校提出了DreamRunner,一种用于故事视频生成的方法。该方法利用大型语言模型进行场景和运动规划,采用检索增强的适应性实现多样化运动定制,并通过时空注意力模块实现精细的物体运动绑定。在角色一致性和文本对齐方面,DreamRunner表现出色。

Bohr精读】

https://j1q.cn/3yyC9xOx

arXiv链接】

http://arxiv.org/abs/2411.16657v1

【代码地址】

https://dreamrunner-story2video.github.io/


【11.26-arXiv】南理工提出时序一致性3D人像方法!

谷歌提出了一种新颖的神经算法,利用分层深度图和基于Transformer的架构,从稀疏的RGB输入中重建3D场景,并高效渲染高分辨率图像,实现实时新视图合成。

Bohr精读】

https://j1q.cn/XYd2fUJS

arXiv链接】

http://arxiv.org/abs/2411.16680v1

【代码地址】

https://quark-3d.github.io/


【11.26-arXiv】南理工提出时序一致性3D人像方法!

上海交通大学与华为技术有限公司联合推出了Human-AGVQA数据集,用于评估AI生成的人类活动视频质量。同时,论文中开发了GHVQ指标,以客观评估视频的视觉质量和语义失真。

Bohr精读】

https://j1q.cn/Ly1OasUI

arXiv链接】

http://arxiv.org/abs/2411.16619v1

【代码地址】

https://github.com/zczhang-sjtu/GHVQ.git


【11.26-arXiv】南理工提出时序一致性3D人像方法!

汉诺威大学与林雪平大学提出了一种基于normalizing flow的单目3D人体姿态和形状估计方法。该方法通过最小化与2D姿态检测器热图的距离来增强分布学习,并利用人体分割掩码减少无效样本,表现优于现有的概率方法。

Bohr精读】

https://j1q.cn/qdYfLJHX

arXiv链接】

http://arxiv.org/abs/2411.16289v1

【代码地址】

https://github.com/twehrbein/humr


【11.26-arXiv】南理工提出时序一致性3D人像方法!

西安交通大学、中国科学院和华为技术有限公司联合开发了AeroGen方法,这是一种布局可控的扩散生成模型,专用于遥感图像目标检测。AeroGen可以生成符合特定布局和目标类别要求的高质量合成图像,显著提升在标注数据有限的数据集中的检测性能。

Bohr精读】

https://j1q.cn/taTUuc11

arXiv链接】

http://arxiv.org/abs/2411.15497v1

【代码地址】

https://github.com/Sonettoo/AeroGen


【11.26-arXiv】南理工提出时序一致性3D人像方法!

新加坡国立大学、复旦大学与亚马逊联合提出了因子化量化(FQ)方法。该方法通过将大型码本分解为独立子码本,增强了基于VQ的分词器的可扩展性和效率。同时,利用解缠结正则化和表示学习,提升了多样性和语义丰富性。

Bohr精读】

https://j1q.cn/oIEY7C6X

arXiv链接】

http://arxiv.org/abs/2411.16681v1

【代码地址】

https://showlab.github.io/FQGAN


【11.26-arXiv】南理工提出时序一致性3D人像方法!

清华大学、NVIDIA和斯坦福大学联合提出了OVM3D-Det方法,这是一种经济高效的开放词汇单目3D目标检测框架。该框架利用RGB图像,并采用自适应伪LiDAR侵蚀和边界框优化技术,在无需高精度3D传感器数据的情况下,能够有效识别新类别。

Bohr精读】

https://j1q.cn/LOPLELEf

arXiv链接】

http://arxiv.org/abs/2411.15657v1

【代码地址】

https://ovm3d-det.github.io


【11.26-arXiv】南理工提出时序一致性3D人像方法!

首尔国立大学提出了Diptych Prompting方法,这是一种新颖的零样本文本到图像生成技术。该方法利用参考图像的修复技术,实现精确的主体对齐,增强视觉细节,并有效防止内容泄漏。

Bohr精读】

https://j1q.cn/5aQeOBUo

arXiv链接】

http://arxiv.org/abs/2411.15466v1

【代码地址】

https://diptychprompting.github.io/


【11.26-arXiv】南理工提出时序一致性3D人像方法!

电子科技大学提出了残差互相关自注意力(RCS)模块和语义反馈优化(SFR)模块。RCS模块通过中间层的互相关注意力增强视觉语言推理,SFR模块则利用语义分割图调整注意力分数。

Bohr精读】

https://j1q.cn/8j75joys

arXiv链接】

http://arxiv.org/abs/2411.15851v1

【代码地址】

https://github.com/yvhangyang/ResCLIP


【11.26-arXiv】南理工提出时序一致性3D人像方法!

清华大学提出了自校准CLIPSC-CLIP)方法。这是一种无需训练的方案,通过解决异常token、提高特征可辨性和采用多层次特征融合,显著增强了CLIP的分割能力。在不引入新参数的情况下,SC-CLIP在语义分割任务中取得了最先进的成果。

Bohr精读】

https://j1q.cn/PpsScsU8

arXiv链接】

http://arxiv.org/abs/2411.15869v1

【代码地址】

https://github.com/SuleBai/SC-CLIP


【11.26-arXiv】南理工提出时序一致性3D人像方法!

香港科技大学与上海交通大学联合推出了SAVEn-Vid大型视听数据集,并提出了基于该数据集微调的时间感知视听大型语言模型SAVEnVideo。此外,研究团队介绍了评估长视频视听理解的基准AVBench,显示出相较于现有模型的显著性能提升。

Bohr精读】

https://j1q.cn/kEu39aVj

arXiv链接】

http://arxiv.org/abs/2411.16213v1

【代码地址】

https://ljungang.github.io/SAVEn-Vid/


【11.26-arXiv】南理工提出时序一致性3D人像方法!

阿里巴巴集团推出的AnyText2方法是一种新技术,用于在自然场景图像中生成和编辑多语言文本。该方法采用WriteNet+AttnX架构,提升了生成文本的真实感和速度,并配备文本嵌入模块,以自定义文本属性,提高文本的准确性。

Bohr精读】

https://j1q.cn/i88rcBNz

arXiv链接】

http://arxiv.org/abs/2411.15245v1

【代码地址】

https://github.com/tyxsspa/AnyText2


【11.26-arXiv】南理工提出时序一致性3D人像方法!

AI2、加州大学欧文分校和华盛顿大学提出了OneDiffusion方法。OneDiffusion是一个大规模扩散模型,将所有任务视为具有不同噪声尺度的帧序列,以实现多样化的双向图像合成和理解。该方法支持条件生成和多任务训练,无需专门的架构。

Bohr精读】

https://j1q.cn/1iljGBSS

arXiv链接】

http://arxiv.org/abs/2411.16318v1

【代码地址】

https://github.com/lehduong/OneDiffusion


【11.26-arXiv】南理工提出时序一致性3D人像方法!

康考迪亚大学提出了BiomedCoOp方法,这是一种提示学习框架,利用语义一致性和知识蒸馏增强BiomedCLIP在小样本生物医学图像分类中的适应性,从而在多个医学数据集上提高了准确性和泛化能力。

Bohr精读】

https://j1q.cn/UjmaMTPY

arXiv链接】

http://arxiv.org/abs/2411.15232v1

【代码地址】

https://github.com/HealthX-Lab/BiomedCoOp


【11.26-arXiv】南理工提出时序一致性3D人像方法!

斯特拉斯堡大学、斯特拉斯堡IHU和影像引导外科研究所推出了UltraSam,一种用于超声图像分析的多功能视觉基础模型。该模型基于大规模US-43d数据集训练,显著提升了基于提示的分割和下游任务的性能。

Bohr精读】

https://j1q.cn/EMtsmElx

arXiv链接】

http://arxiv.org/abs/2411.16222v1

【代码地址】

https://github.com/CAMMA-public/UltraSam

【11.26-arXiv】南理工提出时序一致性3D人像方法!

欢迎关注减论,持续输出有深度的人工智能极减理解,提升信息获取效率和认知维度。看完点颗小星星再走呗~

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注