极化自注意力
论文名称:Polarized Self-Attention: Towards High-quality Pixel-wise Regression
作者:Huajun Liu, Fuqiang Liu, Xinyi Fan
摘要
细粒度的像素级任务(比如语义分割)一直都是计算机视觉中非常重要的任务。不同于分类或者检测,细粒度的像素级任务要求模型在低计算开销下,能够建模高分辨率输入/输出特征的长距离依赖关系,进而来估计高度非线性的像素语义。中的注意力机制能够捕获长距离的依赖关系,但是这种方式十分复杂且对噪声敏感。
本文提出了即插即用的极化自注意力模块,该模块包含两个关键设计,以保证高质量的像素回归:
- 极化滤波():在通道和空间维度保持比较高的分辨率(在通道上保持 的维度,在空间上保持 的维度 ),进一步减少低分辨率、低通道数和上采样造成的信息损失。
- 增强():采用细粒度回归输出分布的非线性函数。
相关工作
逐像素回归任务
用于像素回归的 的进展基本上都是追求更高的分辨率,目前有相当多的网络挑战如何保持图像的高分辨率,研究人员也越来越认识到高分辨率信息的重要性,将从注意力的角度进一步追求上述努力的高分辨率目标,并进一步推动 的发展。基于双重注意力机制,本文针对 的任务,提出了一种更加精细的双重注意力机制——极化自注意力
自注意力机制
注意力机制已经被引入到许多视觉任务中,以弥补标准卷积的缺点。自注意力在序列建模和生成性建模任务中获得成功后,已经成为捕获长距离关系的标准模块。已有工作证明,拥有足够数量头的多头自注意力层可以至少与任何卷积层具有相同的表现力。 促进了逐像素回归的自注意力。
方法
上图显示了一些注意力模块在通道和空 间维度上的分辨率和时间复杂度,可以看到,在通道和空间维度的分辨率很高,但是其时间复杂度也很高;剩下的模块虽然计算量较小,但是很难做到保持高分辨率。
而本文提出的 可以在保持高分辨率的情况下,实现较低的时间复杂度
Polarized Self-Attention (PSA) Block
作者在 中采用了一种极化滤波()的机制。类似于光学透镜过滤光一样,每个 的作用都是用于增强或者削弱特征。(在摄影时,所有横向的光都会进行反射和折射。极化滤波的作用就是只允许正交于横向方向的光通过,以此来提高照片的对比度。 由于在滤波过程中,总强度会损失,所以滤波后的光通常动态范围较小,因此需要额外的提升,用来恢复原始场景的详细信息。)
其实就是编故事(X),简而言之,模块分别在空间和通道维度上进行注意力的计算,其结构如下所示,有两种排列方式:
在进一步介绍模块结构前,先了解一下各个符号的含义:
表示输入,表示 卷积,表示 操作,表示 ,表示层归一化,,这其中 表示 的第 个通道上的特征图,也就是在通道维度上进行 ,表示全局平均池化。
Channel-only branch
通道注意力可以表示为:
其主要流程为:
-
生成 并计算相似度:通过 卷积降低通道数至 ,使用 操作代替