-
谷歌MaskGIT|双向Transformer,图像生成新范式! ⭐️⭐️
- Abstract: 谷歌MaskGIT|双向Transformer,图像生成新范式
- Paper: MaskGIT: Masked Generative Image Transformer
- Tips: MaskGIT的核心思想,就是参考人的作画逻辑,先生成一部分token,再逐渐去完善。
-
基于深度学习的多目标跟踪(MOT)技术一览 ⭐️⭐️
- Abstract: 基于深度学习的多目标跟踪(MOT)技术一览
- Tips: 本文是一篇多目标跟踪方向的调研报告,从相关方向、核心步骤、评价指标和最新进展等维度出发,对MOT进行了全面的介绍
-
ICRA2022 | OPV2V: 首个大型自动驾驶协同感知数据集+代码框架已开源 ⭐️⭐️
- Abstract: OPV2V: 首个大型自动驾驶协同感知数据集+代码框架已开源
- Paper: OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with Vehicle-to-Vehicle Communication
- Code: https://github.com/DerrickXuNu/OpenCOOD
- Tips: 本篇文章提出了首个大型自动驾驶协同感知数据集, 并提供了多达16个模型的综合Benchmark以及一套完整的代码框架,为协同感知这个新领域提供了基准
-
1.5K star量,上古老番变4K,B站开源超分辨率算法 ⭐️⭐️
- Abstract: B站开源超分辨率算法Real-CUGAN 可以把动画图像的质量提升 2 到 4 倍
- Code: https://github.com/bilibili/ailab/tree/main/Real-CUGAN
- Tips: Real-CUGAN 是一个使用百万级动漫数据进行训练的,结构与 Waifu2x 兼容的通用动漫图像超分辨率模型
-
用Transformer搞定图像、视频和单视图3D数据三大分类任务!Omnivore:性能还不输独立模型 ⭐️⭐️
- Abstract: Omnivore用Transformer搞定图像、视频和单视图3D数据三大分类任务
- Paper: Omnivore: A Single Model for Many Visual Modalities
- Demo: https://github.com/facebookresearch/omnivore
- Tips: 总的来说,就是通过embedding将所有视觉模式转换为通用格式,然后使用一系列时空注意力(attention)操作来构建不同视觉模式的统一表示
-
TPAMI 2022 | 华为视觉Transformer综述 ⭐️⭐️
- Abstract: 华为视觉Transformer综述
- Paper: A Survey on Vision Transformer
- Code: https://github.com/huawei-noah
- Tips: 华为诺亚方舟实验室的一篇Transformer综述,包括骨干网络,目标检测,底层视觉,多模态等
-
改进的YOLOv5:AF-FPN替换金字塔模块提升目标检测精度 ⭐️⭐️
- Abstract: 改进的YOLOv5:AF-FPN替换金字塔模块提升目标检测精度
- Paper: Improved YOLOv5 network for real-time multi-scale traffic sign detection
- Tips: 研究者引入AF-FPN和自动学习数据增强来解决模型大小和识别精度不兼容的问题,进一步提高模型的识别性能
-
关键点检测之兼容100+种关键点检测数据增强方法 ⭐️⭐️⭐️⭐️