公众号内容拓展学习笔记(2022.2.25)

公众号内容拓展学习笔记(2022.2.25)


今日要点

  1. 谷歌MaskGIT|双向Transformer,图像生成新范式! ⭐️⭐️

    • Abstract: 谷歌MaskGIT|双向Transformer,图像生成新范式
    • Paper: MaskGIT: Masked Generative Image Transformer
    • Tips: MaskGIT的核心思想,就是参考人的作画逻辑,先生成一部分token,再逐渐去完善。
  2. 基于深度学习的多目标跟踪(MOT)技术一览 ⭐️⭐️

    • Abstract: 基于深度学习的多目标跟踪(MOT)技术一览
    • Tips: 本文是一篇多目标跟踪方向的调研报告,从相关方向、核心步骤、评价指标和最新进展等维度出发,对MOT进行了全面的介绍
  3. ICRA2022 | OPV2V: 首个大型自动驾驶协同感知数据集+代码框架已开源 ⭐️⭐️

    • Abstract: OPV2V: 首个大型自动驾驶协同感知数据集+代码框架已开源
    • Paper: OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with Vehicle-to-Vehicle Communication
    • Code: https://github.com/DerrickXuNu/OpenCOOD
    • Tips: 本篇文章提出了首个大型自动驾驶协同感知数据集, 并提供了多达16个模型的综合Benchmark以及一套完整的代码框架,为协同感知这个新领域提供了基准
  4. 1.5K star量,上古老番变4K,B站开源超分辨率算法 ⭐️⭐️

    • Abstract: B站开源超分辨率算法Real-CUGAN 可以把动画图像的质量提升 2 到 4 倍
    • Code: https://github.com/bilibili/ailab/tree/main/Real-CUGAN
    • Tips: Real-CUGAN 是一个使用百万级动漫数据进行训练的,结构与 Waifu2x 兼容的通用动漫图像超分辨率模型
  5. 用Transformer搞定图像、视频和单视图3D数据三大分类任务!Omnivore:性能还不输独立模型 ⭐️⭐️

    • Abstract: Omnivore用Transformer搞定图像、视频和单视图3D数据三大分类任务
    • Paper: Omnivore: A Single Model for Many Visual Modalities
    • Demo: https://github.com/facebookresearch/omnivore
    • Tips: 总的来说,就是通过embedding将所有视觉模式转换为通用格式,然后使用一系列时空注意力(attention)操作来构建不同视觉模式的统一表示
  6. TPAMI 2022 | 华为视觉Transformer综述 ⭐️⭐️

    • Abstract: 华为视觉Transformer综述
    • Paper: A Survey on Vision Transformer
    • Code: https://github.com/huawei-noah
    • Tips: 华为诺亚方舟实验室的一篇Transformer综述,包括骨干网络,目标检测,底层视觉,多模态等
  7. 改进的YOLOv5:AF-FPN替换金字塔模块提升目标检测精度 ⭐️⭐️

    • Abstract: 改进的YOLOv5:AF-FPN替换金字塔模块提升目标检测精度
    • Paper: Improved YOLOv5 network for real-time multi-scale traffic sign detection
    • Tips: 研究者引入AF-FPN和自动学习数据增强来解决模型大小和识别精度不兼容的问题,进一步提高模型的识别性能
  8. 关键点检测之兼容100+种关键点检测数据增强方法 ⭐️⭐️⭐️⭐️

  • Abstract: 关键点检测之兼容100+种关键点检测数据增强方法
  • Code: https://github.com/DefTruth/torchlm
  • Tips: 本文介绍了已有的几种关键点检测数据增强的方法,将其的优缺点进行了对比并整合出了一个兼容100+种关键点检测方法的小工具,附有详细的代码实操
  1. 致敬CondConv!英特尔提出即插即用的“万金油”动态卷积ODConv ⭐️⭐️
  • Abstract: 英特尔提出即插即用的“万金油”动态卷积ODConv
  • Paper: Omni-Dimensional Dynamic Convolution
  • Tips: 通过并行策略采用多维注意力机制沿核空间的四个维度学习互补性注意力。作为一种“即插即用”的操作,它可以轻易的嵌入到现有CNN网络中。
  1. 新注意力!新主干!清华&南开提出VAN:视觉注意力网络 ⭐️⭐️
  • Abstract: 清华&南开提出VAN:视觉注意力网络
  • Paper: Visual Attention Network
  • Code: https://github.com/Visual-Attention-Network
  • Tips: 本文专门为计算机视觉设计了一种新的注意力机制:大核注意力(Large-kernel Attention (LKA)),该方法吸收了自注意力和卷积操作的优点,并且避免了自注意力和卷积的不足
  1. ICLR 2022 | 目标检测新坑来了!谷歌Hinton团队提出Pix2Seq:基于Transformer的检测新工作 ⭐️⭐️
  • Abstract: 谷歌Hinton团队提出Pix2Seq:基于Transformer的检测新工作
  • Paper: Pix2seq: A Language Modeling Framework for Object Detection
  • Tips: 本文提出了一种简单而通用框架Pix2Seq用于目标检测,不同于已有显式集成先验知识的方案,我们将目标检测任务转换成了基于观测像素输入的语言模型任务
  1. 完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一 ⭐️⭐️
  • Abstract: 完全基于Transformer的目标检测器ViDT,实现视觉、检测统一
  • Paper: VIDT: AN EFFICIENT AND EFFECTIVE FULLY TRANSFORMER-BASED OBJECT DETECTOR
  • Code: https://github.com/Visual-Attention-Network
  • Tips: ViDT 引入了一个重新配置的注意力模块(reconfigured attention module),将 Swin Transformer 扩展为一个独立的目标检测器,之后是一个计算高效的 Transformer 解码器,该解码器利用多尺度特征和辅助(auxiliary)技术,在不增加计算负载的情况下提高检测性能

Others

  • 由于图片权限问题,GitHub是完整版,可以点点 star
  • 星标的数量是与个人相关程度,不代表文章内容的好坏
  • 关注我的个人网站
  • 关注我的CSDN博客
  • 关注我的哔哩哔哩
  • 关注我的公众号CV伴读社

你可能感兴趣的:(公众号学习日记,深度学习,人工智能,计算机视觉)