segnet论文笔记

segnet论文笔记

Abstract

网络结构主要包括’encoder network’,’decoder network’,’classifier’, 其中’decoder network’的作用是把从’encoder network’出来的lower resolution的feature映射到full input resolution的feature然后去做pixel-wise的分类。SegNet比较新颖的部分在于’decoder’对低resolution的feaature的上采样,这里处理的方式,使得上采样不需要再学习。SegNet被设计的在内存和结构方面是比较高效的在推理的时候,其中的可学习的参数也少一些,并且可以用SGD进行端到端的训练。

Introduction

分割的任务其实应用非常地广,比如自动驾驶或者无人驾驶,在这些任务中,需要理解各个像素之间的关系,比如要区分出人行道和车行道,建筑物和道路,并且还要能够检测识别到小的物体,比如路边的小狗,小猫。所以这个任务需要很高的精度,也很具有挑战性。所以为了有个好的区分度,需要对物体的边界有一个非常好的效果,特别是在特征提取的时候,需要保持这些边界的信息。另外在计算时间上面的要求也比较高。所以综合这些原则考虑起来,想像着就比较有挑战性。 FCN的解码的部分的上采样是可以学习的,这样导致有很多的参数需要学习,这样在end to end 训练的时候比较难。所以在这里的解码的部分是添加到已经存在的训练过的网络上。 下图是二者在上采样上的比较

avator

意思(个人理解是)之前在做maxpooling的时候得到的数的原始的位置要记住,然后在上采样的时候,在把这些值给还原到原位置,相当于得到了一个稀疏的上采样feature,而FCN里面直接是deconvolution进行的上采样。

然后整个的网络结构和FCN看起来很相似。

avator

打赏,谢谢~~

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,多谢支持~

打开微信扫一扫,即可进行扫码打赏哦