目标跟踪《七》--- DIMP论文笔记

目标跟踪《七》--- DIMP论文笔记

介绍

paper 地址 https://arxiv.org/abs/1904.07220

通用的物体跟踪就是跟踪一个目标在视频的每一桢中的状态, 而target事先是不知道的,因此第一桢的状态就是target. 最近处理tracking的办法基本上就是构造一个target model 使得它能够区分 target和background.

paper中提到因为每个特定的target只有在test的时候才能够得到其信息,所以target model不太可能像目标检测中那样通过离线的方式先学到,因此target model 需要在inference的阶段被构造.

Siamese似的网络是能过一个feature imbedding map 得到一个feature-imbedding, 然后通过 cross-correlation的方式来比较模板和 instance img之间的不同区域上的相似度,也就是说siamese类的网络是想学到一种相似性的度量方式,但是其实仍然需要target的信息的,(就像人一样,人应该可以理解成事先具有了判别两个物体是否相同的能力,然后当再给一个target的时候,就能够区分这个target和其他的物体是不是同一个.) 所有有一些网络也是采用的这种思路,即离线的学习到一个相似性的度量,然后在tracking的时候利用target的信息再进行相关的调整.

在siamese类的网络中其实 template features就相当于是target model.因此这样的tracker可以通过 annoted pairs进行end-to-end的训练, 比如siamFC.

  • siamese learning framework的缺陷
  1. 在inferring model的时候,仅仅用到了target 的appearance,完全忽略了 background appearance 的信息, 而这在场景中有许多相似物体的时候是十分重要的.比如这个图.

avator

  1. 学到的相似度度量不一定能够处理那些没有出现在训练集中的类别,也就是poor generalization.

  2. 没有一个比较好的model 更新的strategy.

为了解决上述问题,这个paper中提出了下面的网络.

avator

注意上图中并没有显示box estimation的分支, 但是整个网络主要分为三个部分,backbone, classifier, bbox estimation, 这三个都是离线进行训练的(atom中classifier是在线的). 在上图中,上面的一支主要是学得一个target-model f, 然后作为filter与下面的feature进行卷积,得到一个score map, 这个score map 代表的物体的中心在这个位置的置信程度,

  • Discriminative Learning Loss

本文用的loss是下面的

avator

其中c是gt的center, r(,)可以理解成一个抽象的residual函数, 如何利用score map和gt的位置信息来构造一个比较好的cost函数是非常重要的. 其中 在这个paper中 r

avator

这里面的量mc--target region mask, regularization factor $\lambda$, 以及weight $v_c$ 都是可以通过数据来学习的.

  • Optimizaition-Based Architecture

在ATOM中关于classification的在线更新时就设计了一个非常特别的优化办法,这里针对分类的也是单独做了处理,

avator

关于这里的 $\alpha$ 作者提出,固定值时不太好,甚至通过网络学习的方式来指定它也不太好,最终是通过逼近loss函数的方式设计的这个更新的$\alpha$

avator

  • Online tracking

online tracking的时候利用第一桢的target的信息构造出15个samples作为S-train集, 然后通过distriminative model就可以predict出一个target model filter f, 然后用这个f去和test的features做卷积,然后每隔20桢更新这个f.

理解与ATOM的区别

  • ATOM

离线学的iou predictor是如何预测精准的位置信息,在线分类的时候会用到背景的一些信息进行一个粗定位,然后利用离线学的网络进行一个精定位, 在线更新时候只是更新了classification的参数.

  • DIMP

离线学的也有iou predictor做定位, 在target-model predictor这个module中学到的是一个好的filter用于去做相似性度量(score map可以看成是相似性度量), 其实这个相似性度量感觉与ATOM的classification module 模块预测出的score map有同种作用, 所以可以理解成DIMP在离线的时候就用到了背景信息.而在线更新的时候感觉像是做了一定的微调,针对不同的target进行不断地更新filter f (同一个target也要更新.)

thoughts

  • ATOM中classification 完全是在在线tracking的时候更新的,而这里可以把它理解成移到了离线的时候进行训练,然后在线tracking的时候进行微调,进一步提升了效果,并且速度上也比ATOM要快.

打赏,谢谢~~

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,多谢支持~

打开微信扫一扫,即可进行扫码打赏哦