Grid R-CNN解读：商汤最新目标检测算法

Grid R-CNN是商汤科技发表于arXiv的一篇目标检测的论文，对Faster R-CNN架构的目标坐标回归部分进行了替换，取得了更加较精确的定位精度，是最近非常值得一读的论文。

今天就跟大家一起来细品此文妙处。

一、作者信息

该文所有作者均来自商汤科技：

该文直取Grid（网格）修饰R-CNN，意即将目标检测中位置定位转化为目标区域网格点的定位。

二、思想

如下图所示：

在目前的R-CNN目标检测算法中，目标的2个点（比如左上和右下）就能表征其位置，将目标的定位看为回归问题，即将ROI特征flatten成向量,后接几个全连接层回归目标的坐标偏移量和宽高。

作者认为，这种处理方式没能很好的利用特征的空间信息。

作者希望利用全卷积网络的较精确定位能力计算目标位置，将2个目标点的回归问题，转化为目标区域网格点（Grid Points）的定位问题。目标区域的网格点位置是全卷积网络的监督信息，因为是直接将目标区域等分，是可以直接计算的。网络推断时，计算heatmap的极值，即为求得的网格点（Grid Points）。

上图展示了使用3*3网格点的情况。

三、算法流程

作者改造的是Faster R-CNN的目标定位部分，其算法流程如下：

前半部分与Faster R-CNN相同，在得到目标候选区域和ROI特征后，分类部分进行目标分类，而定位部分接全卷积网络，其监督信息来自根据目标位置计算得到的网格监督信息。

流程图中作者特别标出了特征融合模块（feature fusion module），其意在使用网格中相邻网格点的位置相关性，融合特征使得定位更加较精确。

以下针对其中关键步骤进行详细说明。

3.1 网格引导定位

将目标区域划为网格，目标的定位即转化为网格点的定位。

训练时，ROI特征（14*14大小）通过8个3*3空洞卷积，再通过两个反卷积把尺寸扩大（56*56），再通过一个卷积生成与网格点相关的 heatmaps（9 个点就是 9 张图，后文实验也使用了4个点的情况）。监督信息是每一个点所处位置的交叉十字形状的5个点的位置。最后再接sigmoid函数，在heapmaps上得到概率图。

推断时，将heapmaps极值的位置映射回原图，即得到了网格点的位置。

读到这里，读者可能会有一个疑问，即计算得到的网格点组成的形状是方方正正的，而Heapmaps极值得到的网格点未必组合在一起是方方正正的，不好确定目标区域。

作者的方法是对原本应该具有相同x或者y坐标的网格点的坐标进行平均。

到此，即得到了目标位置。

3.2 网格点特征融合

很显然，网格点之间具有内在的联系，相邻网格点之间可以相互校正位置提高定位精度。

为此，作者设计了网格点特征融合的机制。

首先，在计算网格点heapmaps时，每个网格点使用不同的滤波器组，防止它们之间共用特征以至相互影响。

然后在每个网格点的Heapmap出来后，将相邻网格点的Heapmaps经过卷积滤波与其相加，形成新的heapmap。

作者将距离特定网格点最近的相邻网格点（1个单位网格长度）组成的网格点集合的特征融合称为一阶特征融合，次近的相邻网格点（2个单位网格长度）组成的网格点集合的特征融合称为二阶特征融合。下图中（a）（b）分别展示了此融合过程。

3.3 扩展区域映射

这一步主要是为了应对在实际使用中，RPN 给出的 proposal并不总是将完整物体包含在内。如下图：