小郑之家~

paper 理解

  • 从题目可以看出,离的近看的更好,paper中提出的做法就是通过不断地“看得更近”,从而找到那些本质上决定分类效果的区域,从而在细粒度的分类上达到比较好的效果。

  • 主要的作法即类似于检测中的RPN,提出了一个APN,来找对应的注意力区域,然后不断的重复这个过程,直观的想象就像是拿了一个望远镜在不断的放大。

网络结构如下

avator

从图的左边可以看出来,敏感的区域在不断的放大,每一级都有预测的概率,

  • APN模块的作用

为了再下一级的时候能够得到好的区域,所以APN是输出一个区域, 然后下一级在这个区域上进行”crop”,crop的图再进行下一级的使用. 其中APN的输出主要是中心点和一个size,因此只有三个量的输出.

  • APN的输出如何应用到下一级

APN的输出需要转化成为bbox,然后再最初的粗糙的图上进行crop,但是crop这个操作无法使得梯度回传,因此作者想了一个办法来逼近crop这个操作,即实现一个bump function, 文中说叫boxcar function, 即通过mask的形式得到一个和原图一样大小的mask.

avator

因为k取得足够大,所以当x<0的时候,h几乎是0, 因此mask会形成一个中间一片几乎是1的区域,就像是mask.

  • 最终的loss 函数

avator

loss函数有两倍分组成,第一部分是各级的分类Loss,另外一个是rangking-loss,其目的是希望预测的越来越准,这样才能够指导APN产生更准确的区域.因此当后级的概率值较小的时候,对loss不起作用.

avator

  • 结果展示

avator

打赏,谢谢~~

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,多谢支持~

打开微信扫一扫,即可进行扫码打赏哦