- CVPR 2022|未标注视频也能训练目标检测?微软提出时空目标蒸馏框架STUD ⭐⭐
- Abstract: 微软提出时空目标蒸馏框架STUD
- Paper: Unknown-Aware Object Detection: Learning What You Don't Know from Videos in the Wild
- Code: https://github.com/deeplearning-wisc/stud
- Tips: 本文来自威斯康星大学麦迪逊分校和微软研究院,提出了一种时空未知目标蒸馏框架(Spatial-Temporal Unknown Distillation,STUD),其可以在大量未标注视频中提取未知目标,并对原有目标检测模型的决策边界进行规范化。
- 只需要十分之一数据,就能通关四大视觉任务,居然还开源了! ⭐⭐
- Abstract: OpenGVLab开源超高性能预训练模型,节省90%数据量!分类、目标检测、语义分割、深度估计,四大任务一网打尽!
- Paper: INTERN: A New Learning Paradigm Towards General Vision
- Code: https://github.com/opengvlab
- Tips: 上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布通用视觉技术体系“书生”INTERN,一套持续学习框架,用于系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。
- EdgeFormer: 向视觉 Transformer 学习,构建一个比 MobileViT 更好更快的卷积网络 ⭐⭐
- Abstract: EdgeFormer: 向视觉 Transformer 学习,构建一个比 MobileViT 更好更快的卷积网络
- Paper: EdgeFormer: Improving Light-weight ConvNets by Learning from Vision Transformers
- Code: https://github.com/hkzhang91/EdgeFormer
- Tips: 本文提出的核心算子,即 global circular convolution (GCC),是一个卷积操作,但是会引入位置嵌入,同时还具有全局的感受野。另一个改进点是使用提出的 GCC 和 SE 操作构建了类似于 Vision Transformer 的基础操作单元。借助于 SE 引入了样本相关的注意力机制。
- LSTM在CV领域杀出一条血路!Sequencer:完美超越Swin与ConvNeXt等前沿算法 ⭐⭐
- Abstract: Sequencer:完美超越Swin与ConvNeXt等前沿算法
- Paper: Sequencer: Deep LSTM for Image Classification
- Tips: 本文提出Sequencer,一个全新且具有竞争性的架构,可以替代ViT,为分类问题提供了一个全新的视角。作者还提出了一个二维的Sequencer模块,其中一个LSTM被分解成垂直和水平的LSTM,以提高性能。
- 视觉Transformer的复仇!Meta AI提出DeiT III:ViT训练的全新baseline ⭐⭐⭐⭐
- Abstract: Meta AI提出DeiT III:ViT训练的全新baseline
- Paper: DeiT III: Revenge of the ViT
- Tips: 本文提出了训练视觉 Transformer(ViT)的三种数据增强方法:灰度、过度曝光、高斯模糊,以及一种简单的随机剪枝方法 (SRC)。实验结果表明,这些新方法在效果上大大优于 ViT 此前的全监督训练方法。
- 引入特征空间,显著降低计算量:双边局部注意力ViT性能媲美全局注意力 ⭐⭐
- Abstract: 引入特征空间,显著降低计算量:双边局部注意力ViT性能媲美全局注意力
- Paper: BOAT: Bilateral Local Attention Vision Transformer
- Code: https://github.com/mahaoyuHKU/pytorch-boat
- Tips: 作者提出了双边局部注意力 ViT (简称 BOAT),把特征空间局部注意力模块加入到现有的基于窗口的局部注意力视觉 Transformer 模型中,作为图像空间局部注意力的补充,大大提升了针对远距离特征依赖的建模能力,在几个基准数据集上的大量实验表明结合了特征空间局部注意力的模型明显优于现有的 ConvNet 和 ViT 模型。