Skip to main content

UniRepLKNet

论文名称:UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

作者:Xiaohan Ding, Yiyuan Zhang, Yixiao Ge, Sijie Zhao, Lin Song, Xiangyu Yue, Ying Shan

Code: https://github.com/AILab-CVC/UniRepLKNet

前言

目前大核卷积神经网络仍然存在两个问题:

  1. 没有明确的网络结构设计路线,只是参考了传统卷积神经网络和 Transformer 的设计;
  2. Transformer 在各种模态中都占据了主导地位,卷积神经网络在视觉以外是否也能如此。

本文做出了如下贡献:

  1. 提出了 4 条大核卷积神经网络的设计准则;
    1. 使用高效的注意力模块如 SE 增加模型深度
    2. 使用重参数化技术
    3. 根据任务决定卷积核大小,并且只在网络中后阶段使用大核
    4. 使用 3×33\times 3 卷积而不是大核卷积加深网络。
  2. 通过简单的前处理,大核卷积神经网络可以在其他模态中取得 SOTA.

架构设计准则

使用既能进行通道间信息交流又能进行空间聚合的高效结构来增加深度

模块结构如下:

2024-01-17_16-14

进行了不同的模块实验

2024-01-17_17-08

空洞卷积重参数化(Dilated Reparam Block)

结构如下:

2024-01-17_16-59 2024-01-17_17-13

根据下游任务决定卷积核大小,并且只在网络中后部分使用大核卷积

2024-01-17_17-14

使用 3 x 3 卷积而不是大核卷积加深网络

2024-01-17_17-18