RT‑DETR 系列是由百度提出的一系列基于 Transformer 的实时端到端目标检测器,以下列出了从提出到演化的主要 milestone:
版本 | 时间 | 主要改进 / 特点 |
---|---|---|
DETR | 2020–05(论文) oai_citation:0‡labellerr.com oai_citation:1‡arxiv.org | Transformer 架构首次用于端到端检测,无需 NMS |
RT‑DETR | 2023–04(CVPR′24 接收) () | 实时 DETR,混合 Encoder + IoU-aware 初始化,RTX‑T4 上可达 108 FPS(R50/53.1 AP) |
RT‑DETRv2 | 2024–07(arXiv 发布) () | 优化训练策略(Bag‑of‑Freebies)、解耦多尺度、部署友好改动 |
RT‑DETRv3 | 2024–09(arXiv 发布) () | 引入 Dense Positive Supervision、Self‑Attention Perturbation,增强训练密度,R18 AP 提升约 1.6 % |
DETR(2020)
突破传统两阶段结构,提出 bipartite matching + transformer decoder,实现 NMS-free 结构 oai_citation:2‡arxiv.org。
RT‑DETR(2023/2024)
RT‑DETRv2(2024‑07)
RT‑DETRv3(2024‑09)
RT‑DETR 代表了 Transformer 检测器向实时性能发展的趋势,通过一系列工程和训练优化,实现了比主流 YOLO 系列更优的速度–精度平衡。最新的 RT‑DETRv3 在训练统一性上继续深入,是当前端到端检测的先进方向。