目标跟踪《十四》---SiamDW论文笔记

目标跟踪《十四》---SiamDW论文笔记

大致内容

这个工作的motivation感觉和SiamRPN++类似,就是解决padding的问题,利用比较流行的resnet等网络结构来提特征,经过改进之后最终确实在很多数据集上面都提点了.

做法

  • 分析比较流行的resnet 等网络为什么不能够用.

作者分析,因为这最初这些网络都是搞imagenet分类的时候被设计出来的,所以这些网络结构可能对于一个物体的具体在哪里并不是太敏感。直接用这些网络的话,效果并没有提升,甚至降点.

  • 为了研究原因作者定量的对siamese网络中的感受野,padding以及stride都做了很多的实验,结论如下
  1. siamese不太适合较大的stride, 用4或者是8比较合适,

  2. receptive field,对于alexnet,在[87-8, 87+16]这个范围内比较好,

基于这些实验作者给出了设计siamese网络结构的时候的一些指导,除了上面说的两条还有

  1. 如果用全卷积网络的话,要特别注意the problem of perceptual inconsistency between two network streams

解决方法可以去除掉padding也以先增加exemplar和search image的size然在crop 出受padding影响的区域.

新网络结构的提出CIR系列.

  • CIR Unit

如图所示

avator

其中左边是resnet,右边是作者改进的,可以发现改变的地方在于addition了之后作了一个crop操作,直观上理解是之前在经过resnet block的时候会有padding的影响,但是padding带来的影响在边界,所以用一个crop就能把边界的部分给搞掉,这样就消除了部分padding带来的影响.实验证明确实有所提升.

  • CIR-D Unit

-D的意思是downsampling, 比较如下

avator

主要区别是将stride 由2变成了1,然后最后加了一个maxpooling, 直观上理解是步长变小了之后,feature的size会变大,所以加一个pooling就又可以变小size, 关键是为什么要将stride调小为1,是因为这样弄了之后再crop的时候就可以去除掉padding带来的影响,不然还会有stride大带来的影响,如果不改变stride的话就不确定crop的时候去没去掉padding带来的影响.

  • 针对Inception和ResneXt作的改进

avator

thoughts

感觉主要的想法就是去掉padding和stride带来的影响,然后设计出了新的网络,使得更深和更宽的网络都可以应用.

打赏,谢谢~~

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,多谢支持~

打开微信扫一扫,即可进行扫码打赏哦