RFCN论文笔记

RFCN论文笔记

R-FCN的核心是什么

我认为是提出了”position-sensitive feature map”,即对位置敏感的feature map,并且在速度上面比faster-rcnn快了好多。

如下图所示

avator

假设region-proposal已经有的话,那么原始的图像会得到一个叫做position-sensitive feature map, 它的channels的个数是k^2*(C+1),其中C是类别的数目,1 是背景,k是在roi-pooling的时候将roi分割成为k-k的bins.

上图中的第三个,我理解是和feature map一样shape的,但是其深度是k^2*(C+1),与faster-rcnn相比增加速度的地方也在于此,因为之前在faster-rcnn中得到rois之后在head部分还需要对每一个roi进行做一次卷积,再进行pooling.而现在就不是的了,直接用一个大的position-sensitive的feature map来进行分类,具体的过程是这样的,

现在来看看上面的第4个图是如何得到的,

avator

对于上式,先固定c,即算第4张图的某一个channel, 这时候有k^2个值要算,第一值,需要在前面的第c个k^2个channel处计算,它的值等于对应的bin所对应的那些像素点在这个sensitive-map上的值求和。

然后针对这个roi就会得到第4个图,然后每一个channel再求和,得到C+1个数字,然后再去做softmax.

正如前面所说,因为减少了faster-rcnn中每个roi还要单独卷积一次,所以加快了速度.这里提出的这个score map还是挺创新的。

打赏,谢谢~~

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,多谢支持~

打开微信扫一扫,即可进行扫码打赏哦