目标检测小综述
课程
这节课讲得有点划,硬核的部分都略去了orz
思路
- 滑窗:不可接受的效率成本
- R-CNN、Fast R-CNN:Selective Search提议,比较复杂
 
 - Regional Proposal:使用一些特征减少框数
- Selective Search:贪心算法将相邻而相似的图像块合并
 
 - 消除滑窗重复计算:一次卷积计算所有特征,裁切特征图分类
 - 密集预测
 
两阶段方法
区域提议+区域识别,逐步被单阶段取代
- Fast R-CNN
 - Faster R-CNN
 - Mask R-CNN
 
锚框:原图上设置不同尺寸的基准框,基于特征独立预测其中是否包含物体(区域提议)
级联方法
- Cascade R-CNN
 - HTC
 
单阶段方法
- YOLO Series
 - SSD:在多个特征图上使用密集预测方法,产生所有位置、不同尺度、所有锚框的预测结果
- 锚框与真值匹配原则:一个真值框可匹配多个IoU > 0.5的锚框
 - 8732个锚框分类 + 回归预测计算损失,每个锚框都有其分类、回归真值
 
 - Retina Net:FPN多尺度特征融合+Focal loss
 - FCOS:直接在多尺度特征图上进行预测,多尺度特征图本身可表达不同尺度物体,抛弃了锚框
 - CenterNet:在特征图上分别逐点回归产生热力图和局部偏移量
 
锚框数极多,正负样本不均衡
- 两阶段检测通过区域提议拒绝了大量负样本,区域检测头接收正负样本并不悬殊
 - 解决方案:Focal loss
 
区域提议用于拒绝负样本,但区域提议模块是如何解决正负样本不均衡的问题的呢?
其中为属于其真值类别的概率(交叉熵损失),聚焦因子调节困难、简单负样本相对损失(越自信对loss的贡献越小,不自信时的惩罚较大),加权因子
通常增大对应减少。
Transformer
- DETR:脱离密集预测模式,将检测建模为从特征序列到框序列的翻译问题,使用匈牙利算法与真值框比对,但收敛慢
 - D而formable DETR:显式建模query注意的位置,收敛更快
 
重要方法
设计
- 非极大抑制NMS:每次从检测结果找出置信度最大的框,剔除IoU超过阈值的框
 - 边界框回归:预测相对滑窗的偏移量
 - 边界框编码:边界框绝对偏移量数值上常较大,因此需要进行一定变换,例如R-CNN系列
 
评估
- precision:检测结果里有多少是正确的
 - recall:检测出了多少物体
 - PR曲线与Average Precision AP(PR曲线下面积)
 




