小郑之家~

paper地址: https://arxiv.org/pdf/1803.01529.pdf

概括

本文想要解决的是在少量样本情形下的目标检测问题。所使用的方法是设计了一个叫做LSTD(low-shot transfer detector)的检测器,在少量样本的情况下,通过充份使用source-domain中的知识来构建target-domain的检测器。主要贡献主要有三点:

  1. 网络结构充分利用了SSD和Faster-RCNN中的优点
  2. 介绍了一个新的正则化transfer learning framework,该模块由TK(transfer knowledge)和BD(background depression)regularations组成,主要是为了利用source-domain和target-domain中的知识。

每个模块以及总体结构

  1. Basic LSTD

image|690x168 这个结构采用了SSD中对于bbox回归所使用的multi-convolutional-layer的设计,以及Faster-RCNN中coarse-to-fine的classication设计。这两个设计在LSTD这个模块中非常重要,特别是当训练样本比较少的时候。Bbox回归用的是SmoothL1-loss,并且使用的这些regressor在所有的类别中是shared的,而不像Faster-RCNN中针对每个类别有各自的regressor。这样做的好处是在large-scale source domain上pretrained的 regressor的参数可以在low-shot target domain中复用,这样避免了bbox regression的随机初始化而导致的fine-tune负担。在object classification用的是Faster-RCNN的模式,即先对一些default box(anchor)做一个二分类,判断一个框中是否有物体。然后根据这个二分类的得分选择region proposal 进入ROI layer产生固定size的feature,在预测的时候和Faster-RCNN中不同的是,这里采用了两层卷积层,而不是FC layers.

  1. Regularized transfer learning for LSTD
![image 690x276](upload://boGjWoNqvRSSjvdWQBYePnUKD9W.jpeg)

主要过程如下:

  • 用大量的source-data的数据集训练source-domain的LSTD
  • 使用pretrained 的source-domain的LSTD对target-domain的 LSTD进行初始化
  • 利用少量的target数据对target-domain的LSTD进行fine-tune。fine-tune的过程中为了防止过拟合(数据量小)会采用BD和TK这两个模块。
  1. Background-Depression (BD) regularization
![image 584x370](upload://itoBbi0YBmLDocBkPc5QqnrkIb3.jpeg)

顾名思义该模块是为了抑制背景。上面heatmap是通过channel间的平均conv5_3的feature得到的, 上面对比了加BD和不加BD时候的区别,能够看到加了BD之后,LSTD会更加地专注到target上面。BD对应的Loss是 image|370x98

其中F_BD指的是在feature上面用目标的位置信息得到了一个feature_mask,这样也会知道背景的区域,从而直接将背景区域进行抑制。

  1. Transfer-Knowledge (TK) regularization image|690x419

上图的红色框是target-object proposal, 右边的条形图是用source-domain的LSTD得到的top5的soften-labels,这样能够提供的信息是target的cow和source domain的bear比较像(同样aeroplane与kite很像).

  • 为什么要使用TK? 虽然在target-domain中可以使用source-domain训练好的关于object or not-object的模型参数,但是对于target的新的K个类别,target domain中的分类器还是要重新进行初始化(包括背景),主要是因为target domain和 source domain没有交集。 这样的话,简单的对classifier进行fine-tune并不能够充分使用source-domain中的知识.
  • TK具体如何使用?
    • source-domain knowledge, 即将target-domain产生的proposal(框)应用到source-domain的ROI pooling layer(即用source-domain产生的feature)之后产生了一个source-domain object classifier关于此proposal的一个knowledge vector,之后会产生一个概率预测 image|452x86
    • target-domain prediction of source-domain categories. 为了将上面的source-domain的知识运用起来, target-domain也会预测一个soften prediction of source object categories: image|456x90
    • TK Regularization, 在上面的两个预测之间会有一个TK regularization image|574x80

结果比较

当训练样本比较少的时候,与SSD和FasterRCNN的mAP比较 image|582x500

Thoughts

感觉本文中有两个想法值得学习,一个是抑制背景的BD模块,一个是fine-tune时使用的TK模块,这里使用的BD模块或许可以直接在网络输入的时候将原图和mask(每个目标的mask都要有)一起输入。

打赏,谢谢~~

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,多谢支持~

打开微信扫一扫,即可进行扫码打赏哦