1. VITA: Video Instance Segmentation via Object Token Association(NeurIPS 2022)

摘要: 我们引入了一种新的离线视频实例分割范式(VIS),基于显式面向对象的信息可以成为理解整个序列上下文的有力线索的假设。为此,我们提出了 VITA,这是一种建立在现成的基于 Transformer 的图像分割模型之上的简单结构。具体来说,我们使用图像对象检测器作为将对象特定上下文提取到对象标记的一种手段。VITA 通过使用时空主干特征关联帧级对象标记来实现视频级理解。通过使用压缩信息有效地构建对象之间的关系,VITA使用ResNet-50主干在VIS基准上达到了最先进的水平:YouTube-VIS 2019&2021上的49.8AP、45.7AP和OVIS上的19.6AP。此外,由于其与主干特征不相交的基于对象标记的结构,VITA 显示出几个实际优势,即以前的离线 VIS 方法尚未探索 - 使用公共 GPU 处理长高分辨率视频,并冻结在图像域上训练的帧级检测器。

主要创新点:原先的视频实例分割模型大多输入帧,希望建立帧与帧之间关联,这引入了很多噪声(如背景)。所以希望直接提取出帧信息中的物体,希望建立物体之间的前后时间。

image-20221205090421078

2. Cross Aggregation Transformer for Image Restoration(NeurIPS 2022)

摘要最近,Transformer 架构被引入到图像恢复中,以用令人惊讶的结果替换卷积神经网络 (CNN)。考虑到具有全局注意力的 Transformer 计算复杂度高,一些方法使用局部方形窗口来限制自注意力的范围。然而,这些方法缺乏不同窗口之间的直接交互,这限制了远程依赖的建立。为了解决上述问题,我们提出了一种新的图像恢复模型 Cross Aggregation Transformer (CAT)。我们的 CAT 的核心是矩形-Windows Self-Attention (Rwin-SA),它利用不同头部的水平和垂直矩形窗口注意力并行扩展注意力区域并聚合跨不同窗口的特征。我们还为不同的窗口交互引入了轴向移位操作。此外,我们提出了局部互补模块来补充自注意力机制,该机制将 CNN(例如平移不变性和局部性)的归纳偏差合并到 Transformer 中,从而实现全局-局部耦合。大量实验表明,我们的 CAT 在几个图像恢复应用中优于最近最先进的方法。

创新点:注意力模块设计,水平注意力垂直注意力以及两者整合

image-20221205091926402

3. BeLFusion: Latent Diffusion for Behavior-Driven Human Motion Prediction

摘要:随机人体运动预测 (HMP) 通常通过生成对抗网络和变分自动编码器来解决。大多数先前的工作旨在根据骨骼关节的分散来预测高度多样化的运动。这导致预测快速和运动发散运动的方法,这通常是不现实的,并且与过去的运动不连贯。这种方法还忽略了需要预测不同低范围行为或动作的上下文,具有微妙的关节位移。为了解决这些问题,我们提出了 BELFusion,这是一种模型,首次利用 HMP 中的潜在扩散模型从潜在空间中采样,其中行为从姿势和运动中分离出来。因此,从行为的角度鼓励多样性。由于我们的行为耦合器能够将采样行为转移到正在进行的运动中,BeLFusion的预测显示了各种行为,这些行为比现有技术更真实。为了支持它,我们引入了两个指标,即累积运动分布的面积和平均成对距离误差,根据对126名参与者的定性研究,它们与我们对现实主义的定义相关。最后,我们证明了 BeLFusion 在随机 HMP 的新跨数据集场景中的泛化能力。

创新点:用扩散模型做motion预测,相信不就将来有用扩散模型做轨迹预测了。

从下图直观感受传统的以CVAE做代表的预测隐空间区域离散,导致不同采样区别预测结果区别很大。而扩散模型一个更连贯的过程,所以相对效果更合理一些。

image-20221205101859412

4. ResFormer: Scaling ViTs with Multi-Resolution Training

摘要:Vision Transformers (ViTs) 取得了压倒性的成功,但它们存在易受攻击的分辨率可扩展性,即当呈现在训练期间看不到的输入分辨率时,性能会急剧下降。我们介绍了 ResFormer,这是一个框架,它建立在多分辨率训练的开创性工作之上,以提高在广泛的、大部分看不见的测试分辨率上的性能。特别是,ResFormer 对不同分辨率的复制图像进行操作,并强制执行尺度一致性损失来参与不同尺度的交互信息。更重要的是,为了在不同分辨率的之间交替,我们提出了一种全局局部位置嵌入策略,该策略以输入大小平滑地变化。这允许 ResFormer 有效地应对新的分辨率。我们对ImageNet上的图像分类进行了广泛的实验。结果提供了强有力的定量证据,证明 ResFormer 在广泛的分辨率方面具有有希望的缩放能力。例如,ResFormerB-MR 在相对较低的高分辨率和高分辨率(即 96 和 640)上进行评估时实现了 75.86% 和 81.72% 的 Top-1 准确率,比 DeiT-B 好 48% 和 7.49%。我们还证明了ResFormer是灵活的,可以很容易地扩展到语义分割和视频动作识别。

image-20221205103120270

动机:transformer在进行图片分类任务时,容易受输入分辨率影响,当测试分辨率和训练分辨率不同时易出现精度大幅下降。所以基于此作者重新设计模型,在输入时变更为多种图片尺度,统一输出相同大小,比较不同输出之间的交互。

5. Scaling Language-Image Pre-training via Masking(何凯明新作)

摘要:我们提出了快速语言图像预训练 (FLIP),这是一种简单且更有效的训练 CLIP [52] 的方法。我们的方法随机屏蔽并在训练过程中删除大部分图像补丁。掩蔽允许我们在相同的挂钟时间的情况下从更多的图像-文本对中学习,并以相似的内存占用在每次迭代中对比更多的样本。这导致了准确性和训练时间之间的良好权衡。在我们对 400 万个图像-文本对的实验中,FLIP 在去掩码基线上提高了准确性和速度。在下游任务的大量多样性上,FLIP 主要优于在相同数据上训练的 CLIP 对应物。通过加速促进,我们探索了增加模型大小、数据大小或训练长度的缩放行为,并报告了令人鼓舞的结果和比较。我们希望我们的工作将促进未来对扩展视觉语言学习的研究。

image-20221205103934969

何凯明新作,将mask机制用于多模态学习上。感觉像是去年MAE的升级。

6. LUMix: Improving Mixup by Better Modelling Label Uncertainty

image-20221205104455078

摘要:当使用噪声样本和正则化技术进行训练时,现代深度网络可以更好地推广。Mixup[41]和CutMix[39]已被证明对数据增强有效,以帮助避免过拟合。以前的基于 Mixup 的方法线性组合图像和标签以生成额外的训练数据。然而,如果我们如图 1 所示,如果对象不占据整个图像,这是有问题的。即使对于人类来说,正确分配标签权重也很困难,也没有明确的标准来衡量它。为了解决这个问题,在本文中,我们提出了 LUMix,它通过在训练期间添加标签扰动来模拟这种不确定性。LUMix 很简单,因为它可以在几行代码中实现,并且可以普遍应用于任何深度网络,例如 CNN 和 Vision Transformers,计算成本最小。大量的实验表明,我们的LUMix可以在ImageNet上持续提高具有广泛多样性和容量的网络的性能,例如+0.7% 对于小型模型 DeiT-S,+0.6% 用于大型变体 XCiT-L。我们还证明了 LUMix 在 ImageNet-O 和 ImageNet-A 上进行评估时可以带来更好的鲁棒性。

图像分类上一个涨点技巧。

7. Good helper is around you: Attention-driven Masked Image Modeling(AAAI2023)

摘要:据观察,蒙面图像建模 (MIM) 在过去几年中在自我监督学习方面显示出巨大潜力。MIM受益于通用主干视觉转换器,通过屏蔽图像的一部分补丁来学习自监督视觉表示,同时试图恢复丢失的像素。以前的大多数工作都是随机屏蔽图像的补丁,这没有充分利用有利于视觉表示学习的语义信息。另一方面,由于主干的大小很大,以往的大多数工作都必须在训练前花费很多时间。在本文中,我们提出了注意力驱动的掩蔽和割草策略(AMT),可以解决上述两个问题。我们首先利用自注意力机制在训练过程中自动获取图像的语义信息,而无需使用任何监督方法。掩蔽策略可以由该信息引导选择性地屏蔽区域,这有助于表示学习。此外,提出了一种冗余补丁投掷策略,使学习更加高效。作为掩模图像建模的即插即用模块,AMT在CIFAR-10/100、STL-10、Tiny ImageNet和ImageNet-1K上将MAE的线性探测精度提高了2.9% ~ 5.9%,在MAE和SimMIM的微调精度方面取得了较好的性能。此外,这种设计在下游检测和分割任务上也取得了更好的性能。

image-20221205105837241

创新点:图中灰色代表mask部分,黑色部分是基于注意力权重生成的。这里基于已得到注意力屏蔽掉对图片无价值的地方(注意力权重小的地方),最终将两个同时作为输入。

最后修改:2022 年 12 月 05 日
如果觉得我的文章对你有用,请随意赞赏