基于场景图分解的自然语言描述生成 Comprehensive Image Captioning via Scene Graph Decomposition

本文由腾讯 AI Lab 主导,与威斯康星大学麦迪逊分校合作完成,提出了一种基于场景图分解的自然语言描述生成方法。

使用自然语言来描述图像是一项颇具挑战性的任务,本文通过重新回顾图像场景图表达,提出了一种基于场景图分解的图像自然语言描述生成方法。该方法的核心是把一张图片对应的场景图分解成多个子图,其中每个子图对应描述图像的一部分内容或一部分区域。通过神经网络选择重要的子图来生成一个描述图像的完整句子,该方法可以生成准确、多样化、可控的自然语言描述。研究者也进行了广泛的实验,实验结果展现了这一新模型的优势。

如图所示,新方法从输入图像生成场景图,并且分解为一系列子图。本文设计了一个子图生成网络(sGPN),用于学习识别有意义的子图,这些子图基于注意力的 LSTM 可以进一步解码生成句子,并且将短语匹配到图节点对应的图像区域。通过利用子图,模型可实现准确、多样化且可控制的图像描述生成。

https://www.zhuanzhi.ai/paper/97df62d67f87b9976eba899a617c099e

成为VIP会员查看完整内容
24

相关内容

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
74+阅读 · 2020年9月25日
专知会员服务
13+阅读 · 2020年9月19日
专知会员服务
21+阅读 · 2020年9月11日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
【泡泡一分钟】基于图神经网络的情景识别
泡泡机器人SLAM
11+阅读 · 2018年11月21日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
Arxiv
5+阅读 · 2018年4月30日
VIP会员
最新内容
乌克兰前线的五项创新
专知会员服务
1+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
1+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
2+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
10+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
4+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
4+阅读 · 4月19日
微信扫码咨询专知VIP会员