DeepLab V3 论文笔记

DeepLab V3 论文笔记

从这里感受到了作者的执着,这个paper是deeplabV3的,对之前的又做了一些改进。

主要的结果

  • 重新审视 atrous convolution

“atrous convolution” 确实是一个好的工具,能够调节感受野还能够控制分辨率。

  • 用”atrous convolution”设计了级联的或者是并行的方式来得到multi-scale的context,并作了一些对比。

  • 也对有没有用CRF的做了对比,并且在没有用Dense CRF的情况下拿到了很好的结果。

  • share 了一些细节和训练的方法。

主要的内容

  • 针对多scale目标的存大,目前有多种获得多尺度feature的办法,这里主要考查4种,如下图所示。

avator

第一个看上去显然计算度太大了,可能不太适用,二是比较常见到的,比如FPN,SegNet, PSPNet等。三是将原来模型的顶端进行修改得到的,主要是用atrous convolution来得到像素之间的长距离信息,在增加感受野的同时又不减少分辨率。最后一个是空间金字塔,用的也非常多。

  • 主要的贡献
  1. 提出可以在级联模块和金字塔模块中加入空洞卷积,能够获得更大的感受野,并且可以获得多scale的信息。

  2. 改进了V2中的ASPP模块,由不同rate的空洞卷积的BN层组成,这里加入了BN,并且尝试用级联和并行的方式来做。

  3. 当使用3-3的特大rate的空洞卷积时,效果并不好,因为图像的边界响应无法捕捉到远距离的信息,使得大rate的效果就像是1-1的卷积差不多,所以作者建议将图像级别的特征整合到ASPP模块中

  • 更深层的空洞卷积

作者做了实验,用atrous convolution 和不用atrous convolution.如下图所示。

avator

可以看出来,没有使用空洞卷积时最终得到非常小的feature map,实验证明这是不得于做语义分割的。 结果如下

avator

可以从表中明显看出,当output_stride越大时(对应的输出的feature map shape 越小),对应的mIOU就会变小,这是因为连续的下采样会降低分辨率,细节的信息都被抽取了,不利于语义分割。

而如(b)所展示的,可以针对同一个output_stride(比如16),用多个不同的rate的空洞卷积,这样会在不增加参数量和计算量的同时有效的缩小了步幅。

  • 改进的ASPP模块

在V2中已经展示了用不同rate的空洞卷积的效果,在新的ASPP里面,加入了BN层。但是随着采样率的增加,filter的有效的权重会变小。更改之后的整个结构如下。

avator

即新的ASPP层是一个1-1的卷积层,3 个3-3的卷积层,采样率分别是(6,12,8), filter的个数是256个,都有BN层,然后(b)阶段是global average pooling.

打赏,谢谢~~

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,多谢支持~

打开微信扫一扫,即可进行扫码打赏哦