Recently, attention based models have been used extensively in many sequence-to-sequence learning systems. Especially for image captioning, the attention based models are expected to ground correct image regions with proper generated words. However, for each time step in the decoding process, the attention based models usually use the hidden state of the current input to attend to the image regions. Under this setting, these attention models have a "deviated focus" problem that they calculate the attention weights based on previous words instead of the one to be generated, impairing the performance of both grounding and captioning. In this paper, we propose the Prophet Attention, similar to the form of self-supervision. In the training stage, this module utilizes the future information to calculate the "ideal" attention weights towards image regions. These calculated "ideal" weights are further used to regularize the "deviated" attention. In this manner, image regions are grounded with the correct words. The proposed Prophet Attention can be easily incorporated into existing image captioning models to improve their performance of both grounding and captioning. The experiments on the Flickr30k Entities and the MSCOCO datasets show that the proposed Prophet Attention consistently outperforms baselines in both automatic metrics and human evaluations. It is worth noticing that we set new state-of-the-arts on the two benchmark datasets and achieve the 1st place on the leaderboard of the online MSCOCO benchmark in terms of the default ranking score, i.e., CIDEr-c40.


翻译:近年来,基于注意力的模型已广泛应用于众多序列到序列学习系统中。尤其在图像描述任务中,此类模型期望将正确的图像区域与恰当生成的词语进行对齐。然而,在解码过程的每个时间步,基于注意力的模型通常利用当前输入的隐藏状态来关注图像区域。在此设定下,这些注意力模型存在“焦点偏移”问题,即它们根据先前词语而非待生成词语计算注意力权重,从而损害了定位与描述的性能。本文提出先知注意力机制,其形式类似于自监督学习。在训练阶段,该模块利用未来信息计算图像区域的“理想”注意力权重,并进一步将这些计算得到的“理想”权重用于正则化“偏移”的注意力。通过这种方式,图像区域得以与正确词语对齐。所提出的先知注意力可轻易融入现有图像描述模型,以提升其在定位与描述两方面的性能。在Flickr30k Entities和MSCOCO数据集上的实验表明,先知注意力在自动评估指标与人工评估中均持续优于基线方法。值得注意的是,我们在两个基准数据集上创下了新的最优结果,并在在线MSCOCO基准排行榜上依据默认排名得分(即CIDEr-c40)位列第一。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
专知会员服务
124+阅读 · 2020年9月8日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
16+阅读 · 2021年1月27日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
13+阅读 · 2019年4月9日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
1+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
4+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
5+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
5+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
7+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
16+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
13+阅读 · 6月4日
相关论文
Arxiv
16+阅读 · 2021年1月27日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
13+阅读 · 2019年4月9日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
19+阅读 · 2018年3月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员