Where To Look [注意力机制]

这篇文章主要致力于解决VQA和其它一些视觉推理问题中的一个核心任务：knowing where to look

如图所示，若红绿灯能够成功被定位，则可以轻易回答问题”What color is the walk light”，如何能够定位到雨伞，则有利于回答”Is it raining”，模型需要学习到被期待的答案的类型，以及做出回答需要基于图片的哪部分

where to look的实现是具有挑战性的，有些问答需要利用全图，而有些回答则需要关注特定的区域，文章中忽略需要额外知识辅助回答和需要推理回答的问题(比如图中男女在约会么)

作者的key idea是学习一个非线性映射，将图片和问题投射到相同的latent space来确定它们之间的关联，然后对相关区域和QA对的匹配度打分，latent space和打分函数由用QA对监督的margin-based loss来共同学习

文章主要的贡献为：

提出了一个图像区域选择机制，学习识别问题相关的图像区域
提出了一个采用margin-based loss的VQA多选题的学习框架，明显优于baseline

对baseline不使用图片，使用全图，使用加权的图像区域进行对比，对图像区域选择对VQA表现的影响提供了更细致的分析

作者认为VQA可以被视为一种定向字幕任务，因此他参考了一些图片字幕task的paper，Fang et al在图像的不同部分检测到单词，并与语言模型结合在一起生成字幕，Xu et al采用RNN检测突出目标，逐个生成字幕词，而文章中的工作则是将问题文本作为输入来确定图像中的相关区域

文章中采用VQA数据集，因为多选题比开放问题更好评估，现在(2016)多数VQA数据集用图像标注来生成问题，这限制了所需的视觉和抽象知识的范围

作者称他们的模型受到End-to-End Memory Networks的启发，模型中的区域类似于该Paper中的句子，并类似地，学习了图片和问题的embedding到相同子空间，用内积来确定相关性

Ba et al采用了类似的框架，但是使用的是零样本学习方法，同样也是将语言和视觉特征投影到相同子空间中，采用内积进行相似性计算，但得分用于指导对象分类器的生成，而非图像区域排序

作者还提到了Bag-Of-Words，LSTM和word2vec，作者表示在实验中采用word2vec，发现挺好用的

Approach

模型整体的框架如图，输入包含问题，潜在的答案，和一组自动选择的候选区域的图像特征，作者使用word2vec和一个两层的网络对解析后的问题和答案进行编码，每个区域图像特征用在ImageNet上预训练的CNN的前两层来编码，随后两个特征通过内积结合，然后用softmax去产生每个区域的权重，将加权平均值输入一个二层的网络得到区域的分数