基于重组性高斯自注意力的视觉Transformer

Acta Automatica Sinica（2023）

引用 0|浏览1

暂无评分

摘要

在目前视觉Transformer的局部自注意力中,现有的策略无法建立所有窗口之间的信息流动,导致上下文语境建模能力不足.针对这个问题,基于混合高斯权重重组(Gaussian weight recombination,GWR)的策略,提出一种新的局部自注意力机制SGW-MSA(Shuffled and Gaussian window-multi-head self-attention),它融合了 3 种不同的局部自注意力,并通过GWR策略对特征图进行重建,在重建的特征图上提取图像特征,建立了所有窗口的交互以捕获更加丰富的上下文信息.基于SGW-MSA设计了SGWin Transformer整体架构.实验结果表明,该算法在mini-imagenet图像分类数据集上的准确率比Swin Transformer提升了5.1%,在CIFAR10图像分类实验中的准确率比Swin Transformer提升了5.2%,在MS COCO数据集上分别使用Mask R-CNN和Cascade R-CNN目标检测框架的mAP比Swin Transformer分别提升了5.5%和5.1%,相比于其他基于局部自注意力的模型在参数量相似的情况下具有较强的竞争力.

关键词

Transformer,local self-attention,Gaussian weight recombination(GWR),image classification,objec-tion detection

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要