CPN 论文笔记

CPN 论文笔记

paper全名是《Cascaded Pyramid Network for Multi-Peron Pose Estimation》是旷视的一篇paper.

大致想法

从题目大致可以看到是用级联的金字塔网络来做多人的姿态估计,这个拿了2017年的COCO冠军。 网络结构图如图 avatar 其中前期的是金字塔型的GlobalNet和后期用来refine的RefineNet.

Abstract

多人姿态估计虽然用CNN得到了很大的提升,但是仍有许多挑战,比如关键点重叠,关键点看不到,复杂背景。这些目前不能很好的被处理。这篇paper作者们提出了一个叫CPN的网络目标就是来处理上述由那些”hard keypoints” 带来的问题。 GlobalNet主要是提feature,并且作一些相对”simple”的关键点位置定位,比如眼睛,手等等,但是对于看不到的或者有重合的可能效果不太好,然后RefineNet会专门来处理这些”hard” keypoints,方法是整合GlobalNet中从不层提出的特征,并结合online hard keypoint mining。 这个里面用到的是top-down的方法,即先用一个detector来检测human bounding boxes,然后再用CPN在每个人的检测框里找到关键点的位置。

introduction

avatar 在CPN中网络有两个stage。 用金字塔型的理由这里说金字塔型提的feature能够提供充足的语义信息,而这在估计重叠和看不到关键点的时候会很有用,然后RefineNet也再利用FPN提到的features来处理”hard” joints.

history

history暂时略过,我会陆续把相关的论文整理出来。 这个paper里用的提特征的网络是基于FPN和Mask-rcnn。都是非常经典的Paper.

avatar 这里着重提了Stacked hourglass的这个paper。

avatar 这个paper后面我会补上,之前大致看了一下,长得非常像沙漏,然后中间经过residual connections连接起来。这里说如果用Resnet的话,用两个hourglass已经接近用8个hourgrass的效果了

GlobalNet

avatar 文章说backbone用的ResNet来去提关键点的heatmaps。用FPN型的原因是可以结合不同层次上的语义信息和空间的信息。但是这里稍微作了改动,即在上采样做相加操作之前加了一个1-1的卷积,可能是加了效果更好一些吧,可能直观理解是让deep的feature再和浅层的相加之前先自己调整一下状态。用GlobalNet能识别出一些比较容易的,比如eyes,但是有很多情况也处理不了。

RefineNet

avatar 文章中说和Stacked hourglass不同的是,这里结合了所有金字塔的特征,而并不是简单的使用在hourglass moudule末尾的上采样的特征。此外这里在更深的层还加了更多的bottlenet blocks,因为更深的地方,空间上来看比较小,计算不会花大多时间,所以在提升性能和效率方面有个平衡。

hard keypoints mining

avatar 在网络training时,倾向于那些更容易的keypoints但是不太注意那些比较难的keypoints,这样不太好,应该对两种类型有个平衡,这里用了他们叫作online hard keypoints mining的办法来显式的选择hard keypoints,然后再反向传播的时候只传这些hard部分的梯度。这种strategy之前也见过。这样会使网络优化那些hard example。

实验细节

实验细节需要边看paper边看代码实现啦!

打赏,谢谢~~

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,多谢支持~

打开微信扫一扫,即可进行扫码打赏哦