本文是对YOLT算法论文的总结和解读,论文主要是根据遥感卫星图的特点对YOLOv2的算法进行了改进,针对遥感卫星图目标检测的几个难点提出了解决方案

卫星遥感图像目标检测难点

文中主要总结了遥感图像目标检测中的四个难点

  1. 目标对象小而密集
  2. 旋转不变性问题
  3. 训练数据缺乏
  4. 分辨率问题

在遥感图像中,我们所感兴趣的目标往往是非常小且密集聚集的(比如树木,停车场的汽车之类的),而不像ImageNet数据集中那种典型的大而突出的物体

其次,遥感图像意味着从头顶观看,看到的对象可以有任何的方向,比如我们可以360度地去看一棵树的枝丫,但是在ImageNet数据集中的树都是竖直的能看到整棵树的

对于卫星遥感来说,还有一个问题就是,图像是巨大的,不能简单地降采样到常用的大多数算法需要的输入大小

下表是常用算法的输入大小和卫星遥感图像的大小

类别 大小
Faster R-CNN $1000 \times 600$
SSD $300 \times 300$ 或 $512 \times 512$
YOLO $416 \times 416$ 或 $544 \times 544$
卫星遥感图像 $16000 \times 16000$

YOLO2的问题与YOLT的改进

文中作者用一张图来清晰地表示YOLT的针对性改进

图的左边是YOLO2的问题,右边是YOLT的改进

首先是YOLO2的泛化性问题,用YOLO2作者的话来说就是难以泛化物体至非常规状态 (遥感情况下360转圈),这个问题的解决方案就是扩充训练数据,缩放以及旋转

其次就是难点中提到的小目标检测问题,解决方案是构建一个最终网格更紧密的网络模型,对小目标上采样以及使用不同尺度的检测器,这些做法同样解决了YOLO2中多次下采样的问题

最后是尺度问题,解决方案有,图像切块以及不同尺度检测器结合

图像切块方法

作者将任意大小的测试图像分割成了可管理的切割块,用模型运行每个切割块,分块操作通过滑窗来实现,默认重叠15%

而在检测中,最后一步将这些块缝合到最终图像中,15%的重叠确保所有的区域被检测,但同时会导致切口边界上的重叠检测,文中采用了非最大值抑制应用于全局矩阵,减轻重叠检测

多尺度检测器

通用模型在不同尺度的目标上效果是较差的,比如上图的机场飞机检测就会出现目标的误检,所以文中基于不同尺度图像训练两个检测模型,通过融合不同模型的结果达到最优效果

网络模型

模型如下,采用22层的16倍下采样结构,用跳链来提高小目标的保真度,在最后一个卷积层上连接一个52*52层,以扩展特征图的细粒度特征