作者信息

一句话总结

摘要

　　基于窗口的注意力很好用，但是手动设计窗口的参数与输入数据无关，这限制了 Transformer 对不同物体，大小、形状、和方向等属性的感知能力。

　　因此提出了四边形注意力 QA，将基于窗口的注意力扩展到四边形公式中。提出端到端的四边形回归模块，将预测框框变换成预测四边形的 Koken。提出了一个框架，在分类，检测，语义分割，姿态识别等任务上表现良好。

动机（介绍和相关工作）

现有方法遇到的问题

　　ViT 在视觉任务中很有效，它把输入的图像切成小块并编码，然后把二维图像视为一维序列，使用多头注意力和 FFN 处理。但是原始的注意力计算 Attention Map 的复杂度是 $o(n^2)$，这导致 Transformer 在处理高分辨率图像是十分困难的。因此局部窗口的 Transformer 将图像划分为几个正方形的窗口，在每个窗口内使用注意力，平衡了性能与资源。这种方法对窗口进行了约束，限制了 Transformer 的长程建模能力和对不同对象的大小，形状和方向的感知，然而这些属性在视觉任务中十分重要。

现有的方法是怎么做的，为什么这样做不好

　　以前的研究侧重于设计高级的结构，使得可以更好的进行长程建模，以改进基于窗口的注意力。Swim 使用大的滑动窗口（7->32），Focal attention 使用 coarse granularity tokens 捕获长程信息，cross-shaped window attention 使用相互垂直的矩形窗口捕获水平和垂直方向的信息，Pale 从水平垂直和对角方向建立长程依赖关系。这些方法通过增加注意力的距离提升分类的性能。尽管图像中目标的大小、形状和方向都是任意的，但是这些方法都采用了固定的矩形窗口进行计算。这种与数据无关的窗口设计对于 ViT 来说可能是次优的。

作者是怎么做的。

　　在这篇研究中，作者提出了一个数据驱动的解决方案，将矩形拓展到四边形，其中的形状大小和方向都是可以自动学习的。它能使 Transformer 更好的学习到不同的特征，用于表示不同的对象。

　　提出了新的注意力方法，从数据中学习物体的四边形配置，计算局部注意力。使用默认的窗口对图像进行分区，之后使用端到端的可学习四边形回归模块预测每个窗口变化，将默认窗口转换为目标四边形。

　　具体来说，作者提出了一种新的注意方法 Quadrangle Attention (QA)，用于学习自适应四边形参数，以计算局部注意。它使用默认窗口对输入图像进行分区，并使用端到端可学习的四边形回归模块来预测每个窗口的参数化变换矩阵。变换包括平移、缩放、旋转、剪切和投影，用于将默认窗口转换为目标四边形。为了提高训练的稳定性并允许良好的可解释性，变换矩阵被表述为几个基本变换的组合。与窗口注意不同，在多头自注意(MHSA)层中不同头部之间共享窗口定义不同，所提出的四边形变换对每个头部独立执行。这种设计使注意力层能够对不同的长期依赖关系进行建模，并促进重叠窗口之间的信息交换，而不需要窗口移位或 Token 置换。作者提出了 QFormer 架构，在许多任务上都取得了优异的成绩。

　　主要贡献有三点：