- CVPR 2022 | 微软提出MiniViT:极致压缩视觉Transformer ⭐⭐
- Abstract: 微软提出MiniViT:极致压缩视觉Transformer
- Paper: MiniViT: Compressing Vision Transformers with Weight Multiplexing
- Code: https://github.com/microsoft/Cream
- Tips:
MiniViT
的核心思想是将连续Vision TRansformer Block
的权重相乘。更具体地说,使权重跨层共享,同时对权重进行转换以增加多样性。Weight distillation
也被应用于将知识从Large-scale ViT
模型转移到权重复用的紧凑模型。
- 精度更高,速度更快!锚点 DETR:基于 transformer 目标检测的查询设计(AAAI 2022) ⭐⭐
- Abstract: 精度更高,速度更快!锚点 DETR:基于 transformer 目标检测的查询设计
- Paper: Anchor DETR: Query Design for Transformer-Based Object Detection
- Tips: 本文提出了一个基于 transformer 的检测算法,其实现简单,且比 DETR 精度更高,消耗显存更少,速度更快,且收敛更快。
- 即插即用全新FAN,鲁棒性和高效性超越ConvNeXt、Swin ⭐⭐
- Abstract: 即插即用全新FAN,鲁棒性和高效性超越ConvNeXt、Swin
- Paper: Understanding The Robustness in Vision Transformers
- Tips: 本文作者研究了Self-Attention在学习鲁棒表征中的作用。在Self-Attention的基础上进一步提出了一系列的Fully Attentional Networks(FANs),通过结合注意力通道来加强鲁棒性。
- 一键瘦脸!浙大提出:人脸视频编辑新技术 ⭐⭐
- Abstract: 一键瘦脸!浙大提出:人脸视频编辑新技术
- Paper: Parametric Reshaping of Portraits in Videos
- Tips: 研究的目标是根据现实世界中的自然面部变形,通过编辑肖像面部的整体形状,生成高质量的肖像视频重塑结果。OpenCV的光流法负责运动映射,并由StructureFlow框架进行平滑处理。人脸对齐网络(FAN)负责特征点估计,而Ceres Solver用于解决优化问题。
- 自监督学习效果差?Meta AI 提出 Q-score 快速过滤错误样本! ⭐⭐
- Abstract: 自监督学习效果差?Meta AI 提出 Q-score 快速过滤错误样本!
- Paper: Understanding Failure Modes of Self-Supervised Learning
- Tips: 作者提出的Q分数可以在无监督的方式下预估自监督模型得到的特征表示在下游任务中正确分类的可能性,同时Q分数正则化也可以一定程度上改善低质量的特征表示,有助于提高下游任务的分类准确率。
- 使用 Mediapipe 和 Yolov5 进行多人姿态估计 ⭐⭐
- Abstract: 使用 Mediapipe 和 Yolov5 进行多人姿态估计
- Tips: 在大多数情况下,使用 MediaPipe 的姿势估计效果非常好,但是当单个帧上有多个人时就会出现问题。解决此问题的一种灵活方法是使用对象检测模型并获取帧中存在的多个人,然后估计每个人的姿势,最后将图像聚合到单个帧中。