Rethinking Channel Attention and Position Embedding
SEBlock
SEBlock 作为注意力机制在计算机视觉方向的开山鼻祖,为众多通道注意力指引了方向。
传统的通道注意方法致力于构建各种通道重要性权重函数,这种权重函数要求每个通道都有一个标量来进行计算,由于计算开销有限,简单有效的全局平均池化(GAP)成为了他们的不二之选。
但是一个潜在的问题是 GAP是否能够捕获丰富的输入信息,也就是说,仅仅平均值是否足够表示通道注意力中的各个通道。
因此有以下分析:
- 不同的通道可能拥有相同的平均值,而其代表的语义信息是不相同的;
- 从频率分析的角度,可以证明 GAP 等价于 DCT的最低频率,仅仅使用 GAP 相当于丢弃了其他许多包含着通道特征的信息;
- CBAM 还表示,仅使用 GAP 是不够的,因此额外引入了 GMP。
离散余弦变换
DCT 主要用于数据或图像的压缩,能够将空间域的信号转换到频域上,具有良好的去相关性的性能。二维的 DTC 公式如下(略去了前面的系数):
fh,w2d=i=0∑H−1j=0∑W−1xi,j2dcos(Hπh(i+21))cos(Wπw(j+21))(1)
二维的逆 DTC 公式如下:
xh,w2d=h=0∑H−1w=0∑W−1fi,j2dcos(Hπh(i+21))cos(wπh(j+21))(2)
我们称二者共有项的基函数:
Bh,wi,j=cos(Hπh(i+21))cos(Wπw(j+21))
这其实是一种加权的形式,我们可以将某些基函数可视化:
上图代表了其值的分布,红色表示接近 1,蓝色表示接近 −1,绿色表示接近 0
可以看出其是十分有规律性的,因为基函数是位置相关的,对于不同的 h,w,其拥有不同的权重,这可以看作一种位置嵌入。
下面证明 GAP 是二维 DCT 的特例,令 h,w 都为 0:
f0,02d=i=0∑H−1j=0∑W−1xi,j2dcos(H0(i+21))cos(W0(j+21))=i=0∑H−1j=0∑W−1xi,j2d=gap(x2d)HW
这代表着二维 DCT变换的最低频率分量,因此 SENet可以表示为:

根据公式 (2)我们可以知道特征可以被分解为不同频率分量的组合,自然而然地,可以将其在通道注意力上进行推广——使用多个频率分量。
位置嵌入