【深度学习】YOLO-World: Real-Time Open-Vocabulary Object Detection,目标检测

介绍一个酷炫的目标检测方式:

论文:https://arxiv.org/abs/2401.17270
代码:https://github.com/AILab-CVC/YOLO-World

文章目录

  • 摘要
  • Introduction
  • 第2章 相关工作
    • 2.1 传统目标检测
    • 2.2 开放词汇目标检测
  • 第3章 方法
    • 3.1 预训练公式:区域-文本对
    • 3.2 模型架构
    • 3.3 可重参数化的视觉-语言路径聚合网络(RepVL-PAN)
    • 3.4 预训练方案
  • 4. 实验
    • 4.1 实现细节
    • 4.2 预训练
    • 4.3 消融实验
    • 4.6 可视化
  • 5 结论
  • 实际测试例子demo
  • 帮助、问询

摘要

YOLO-World是一种实时开放词汇目标检测系统,它通过视觉-语言建模和大规模数据集上的预训练,增强了YOLO(You Only Look Once)系列检测器的开放词汇检测能力。具体来说,该研究提出了一个新的可重新参数化的视-语路径聚合网络(RepVL-PAN)和区域-文本对比损失函数,以促进视觉和语言信息之间的交互。YOLO-World在零样本方式下检测广泛对象类别方面表现出色,并且效率很高。在具有挑战性的LVIS数据集上,YOLO-World在V100上达到了52.0 FPS的帧率和35.4的AP值,这在准确性和速度方面都超过了当前许多最先进的方法。此外,经过微调的YOLO-World在多个下游任务上,包括目标检测和开放词汇实例分割,都取得了显著的性能。

你可能感兴趣的:(深度学习机器学习,深度学习,YOLO,目标检测)