Skip to main content

46 docs tagged with "PaperRead"

View all tags

CBAM

Convolutional Block Attention Module (CBAM) 是一种即插即用的、结合了空间(spatial)和通道(channel)的注意力机制模块。相比于SENet只关注通道(channel)的注意力机制可以取得更好的效果。

CheXagent

论文名称 Towards a Foundation Model for Chest X-Ray Interpretation

CLIP

论文名称:Learning Transferable Visual Models From Natural Language Supervision

DALLE

DALLE:from text to image.

DFANet

insight analysis of Vision Transformer。

Dynamic Convolution

引入动态卷积,即根据多个卷积核对每个输入的关注程度,动态地对它们进行聚合。与静态算法(每层只有一个卷积核)相比,该算法显著提高了网络的表示能力,但增加了大量的计算开销,对高效的网络神经网络更加友好。并且可以很容易地集成到现有的CNN架构中

FcaNet

从频域角度切入,弥补了现有通道注意力方法中特征信息不足的缺点,通过引入更多的频率分量来充分的利用信息。

GAN(生成对抗网络)

GAN是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一,或许在计算机音乐生成、风格迁移方面有所帮助。本篇为《百度AI实战训练营》学习笔记。

GCT:门控注意力

GCT门控通道注意力,通过全局上下文嵌入、通道归一化、自适应门控来显式地建模通道之间的关系,促进其竞争或者合作。

HRNET:疯狂的多尺度融合

用于人体姿态估计的深度高分辨率表示学习(重要),类似Octave的想法,疯狂的多尺度融合,良好的性能提升。

LLaVA

论文名称:Visual Instruction Tuning

Music_translate

钢琴转谱是一项将钢琴录音转为音乐符号(如 MIDI 格式)的任务。在人工智能领域,钢琴转谱被类比于音乐领域的语音识别任务。然而长期以来,在计算机音乐领域一直缺少一个大规模的钢琴 MIDI 数据集。GiantMIDI-Piano 将所有古典钢琴作品转录成 MIDI 格式,并向全世界开放,此举旨在推动音乐科技和计算机音乐学的发展。

RegSeg

不需要预训练的分割网络啊!!

SimAm

中山大学在注意力机制方面的尝试,从神经科学理论出发,构建了一种能量函数挖掘神经元重要性,并对此推导出了解析解以加速计算。通过ImageNet分类、COCO检测与分割等任务验证了所提SimAM的灵活性与有效性。值得一提的是,所提SimAM是一种无参数注意力模块。

SkipConvolution

高通AI研究室针对视频任务提出的Skip-Convolution,在计算成本降低3至4倍的同时,几乎没有任何精度下降,思路较为简单,但是实现起来比较复杂。

VisionLLM

论文名称:VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

极化自注意力

基于双重注意力机制,本文针对Pixel-wise regression的任务,提出了一种更加精细的双重注意力机制——极化自注意力。

超越自注意力:External Attention

新注意力机制:External-Attention!基于两个外部的、小的、可学习的和共享的存储器,只用两个级联的线性层和归一化层就可以取代了现有架构中的“Self-attention”,揭示了线性层和注意力机制之间的关系!在分类、分割、点云任务中性能提升!