GCT:门控注意力
论文名称:Gated Channel Transformation for Visual Recognition
作者:Zongxin Yang, Linchao Zhu, Y u Wu, and Yi Yang
摘要
- GCT 模块是一个普遍适用的门控转换单 元,可与网络权重一起优化。
- 不同于 SEnet 通过全连接的隐式学习,其使用可解释的变量显式地建模通道间的关系,决定是竞争或是合作。
关键词:可解释性、显式关系、门控
介绍
- 单个卷积层只对 Feature Map 中每个空间位置的临近局部上下文进行操作,这可能会导致局部歧义。通常有两种方法解决这种问题:一是增加网络的深度,如 VGG,Resnet,二是增加网络的宽度来获得更多的全局信息,如 GEnet 大量使用领域嵌入,SEnet 通过全局嵌入信息来建模通道关系。
- 然而 SEnet 中使用 fc 层会出现两个问题:
- 由于使用了 fc 层,出于节省参数的考虑,无法在所有层上使用
- fc 层的参数较为复杂,难以分析不同通道间的关联性,这实际上是一种隐式学习
- 放在某些层之后会出现问题
相关工作
门控机制
门控机制已经成功地应用于一些循环神经网络结构中。LSTM 引入了输入门、输出门和遗忘门,用于调节模块的进出信息流。基于门控机制,一些注意力方法侧重于将计算资源集中于特征信息最丰富的部分。
归一化层
近年来,归一化层被广泛应用于深度网络中。局部响应归一化(LRN)为每个像素计算通道间一个小邻域内的统计信息;批量归一化(BN)利用批维度上的全局空间信息;层归一化(LN)沿着通道维度而不是批处理维度计算;组归一化(GN)以不同的方式将通道划分为组,并在每个组内计算均值和方差来进行归一化。
GCT
设计思路:
- 通过 p-norm 嵌入全局上下文信息
- 通过嵌入信息与可训练参数来进行通道归一化
- 通过门控权重与偏置来实现通道门控注意力机制
整体结构

GCT 模块主要包括三个部分——全局上下文嵌入、通道归一化、和门控自适应。其中,归一化操作时无参的。
同时,为了使 GCT可学习,引入了三个权重——, 负责自适应嵌入输出。门控权重 和偏置 负责控制门的激活。
另外,GCT 的参数复杂度为 ,而 SEnet 的复杂度为 。
则 GCT 模块的激活特征为:
全局上下文嵌入
较大的感受野可以避免局部语义歧义,因此设计了一个全局上下文嵌入模块来聚合每个通道中的全局上下文信息。
GAP(全局平均池化)在某些情况下会失效,如将 SE 模块部署在 LN 层之后,因为 LN 固定了每个通道的平均数,对于任意输入,GAP 的输出都是恒定的。
这里选用了 p-norm 来进行全局上下文嵌入,2-norm 的效果最好,1-norm 的效果与其十分接近,但是注意,当 p=1 时,对于非负输入(如部署在 ReLU 之后),将等价于 GAP
其中参数 定义为 ,当 接近 0 时,该通道将不参与通道归一化
该模块定义为:
其中 为一个极小的常数避免了零点处求导问题。