BUTD注意力机制

在图像字幕和VQA中使用的大多数传统视觉注意机制都是自顶而下的，这些机制通常被训练成有选择地关注CNN的一个或多个层的输出，然而这种方法很少确定图像的关注区域

传统的CNN网络在引入注意力机制的时候，图像区域会分成大小均一的网格(左图)，为了生成更像人类的字幕和问题答案，要将注意力自然地放在物体和其他突出的图像区域上，因此文章中提出的注意力机制是对象层面的(右图)

文章提出了一种结合自顶向下和自底向上的注意力机制，自底向上采用Faster R-CNN模型处理显著图像区域，每个区域由一个池化卷积特征向量表示，自顶向下采用task-specific来预测注意力区域，将其特征作为所有区域的图像特征的权重

文章工作

BottomUp Attention Model

在研究中，用bounding boxes来定义空间区域，用Faster R-CNN来实现自底向上注意力。Faster R-CNN是一个对象检测模型，用于识别属于特定类的对象实例，并使用边框对其进行定位

Faster R-CNN对对象的检测可以分为两个阶段，第一个阶段被称为区域候选网络(Region Proposal Network，RPN)，用于预测目标区域，第二个阶段用region of interest (RoI)池化对每个候选区域提取一个小的feature map，这些feature map组合在一起，作为CNN最后一层的输入，最终输出一个基于类标签的softmax分布

文章中采用嵌入了ResNet-101的Faster R-CNN，原先的Faster R-CNN的多任务loss函数包含四个部分，文章中保留了这些部分，并添加一个额外的multi-class loss来训练属性预测器

以下是BottomUp模型输出的一个例子