RT-DETR 简介(Real-Time Detection Transformer)
RT-DETR(Real-Time DEtection TRansformer)是由百度提出的一种面向实时场景的端到端目标检测 Transformer 模型。与传统基于 CNN 的 YOLO 系列不同,RT-DETR 以 DETR 架构 为基础,通过一系列结构与训练策略优化,实现了 无需 NMS 的实时目标检测能力,在速度与精度之间取得了良好平衡。
1. 模型架构特点
RT-DETR 采用 CNN + Transformer Encoder–Decoder 的混合结构:
-
Backbone(主干网络)
使用高效 CNN(如 ResNet / ConvNeXt / CSP 风格改造)提取多尺度特征,兼顾推理速度与特征表达能力。 -
Hybrid Encoder(混合编码器)
将 CNN 特征映射与 Transformer 编码器结合,通过注意力机制增强全局建模能力,同时引入轻量化设计以降低计算开销。 -
Transformer Decoder(解码器)
使用一组固定数量的 Object Queries,直接预测目标类别和边界框,实现:-
端到端检测
-
无需 Anchor
-