RegSeg
论文名称:Rethink Dilated Convolution for Real-time Semantic Segmentation
作者:Roland Gao
摘要
近来的各种语义分割网络一般都是在 ImageNet 预训练的骨干后加上一个特殊的上下文模块,以快速扩大感受野。虽然其结果十分成功,但是仔细分析就会发现,绝大部分计算量都集中在骨干网络之中,而大部分骨干网络并不能获得足够大的感受野。最近的一些工作通过快速降低骨干网络中的分辨率来解决这一点,并且同时使用一个或者多个具有高分辨的平行分支,比如 BiSeNet、STDC 和 DDRNet 等。
本文使用了不同的方法,设计一个受 ResNeXt 启发的结构,使用两个平行的 3×3 卷积层,每个卷积拥有不同的 dilation rate,扩大感受野的同时也能保留局部的细节特征。
同时提出了一个轻量级的解码器,它比普通的替代方案能恢复更多的局部信息。
RegSeg 的性能十分优秀,并且不需要在 ImageNet 上预训练,作者认为
ResNeXt
在上篇文章中回顾了卷积神经网络的发展史,ResNeXt 也在其中留下了浓墨重彩的一笔。ResNeXt 将 ResNet 与 Inception 结合,可以获得更好的性能。其网络结构图如下:
在每个 block 中使用分组卷积,参数量不变的同时获得了不俗的性能,有力地证明了分组卷积的可行性。
RegSeg
backbone
RegSeg 受到 ResNeXt 的启发,同样使用了分组卷积,同时对于每个卷积使用不同的 dilation rate,最大可以达到 14,这是非常令人震惊的设计,但是结果表明,大感受野与小感受野的结合拥有很强的潜力。
RegSeg 的设计如下:
每层中使用两个分支,将特征图 split 后使用不同的分组卷积核来降低参数量,其中一个卷积核的 dilation rate 始终为 1,另一个则拥有很大的空洞率,与此同时使用残差结构来保证性能。
对于 stride=2 的下采样层,其结构如下:
在 identity 的部分添加了步长为 2 的 2×2 卷积。
decoder
设计了一个轻量高效的解码器,结构图如下:
解码器有着恢复主干局部信息的作用,该解码器直接同时对三个尺度的信息的进行恢复,充分利用不同尺度的信息。