Real-world scenarios often require the anticipation of object interactions in unknown future, which would assist the decision-making process of both humans and agents. To meet this challenge, we present a new task named Visual Relationship Forecasting (VRF) in videos to explore the prediction of visual relationships in a reasoning manner. Specifically, given a subject-object pair with H existing frames, VRF aims to predict their future interactions for the next T frames without visual evidence. To evaluate the VRF task, we introduce two video datasets named VRF-AG and VRF-VidOR, with a series of spatio-temporally localized visual relation annotations in a video. These two datasets densely annotate 13 and 35 visual relationships in 1923 and 13447 video clips, respectively. In addition, we present a novel Graph Convolutional Transformer (GCT) framework, which captures both object-level and frame-level dependencies by spatio-temporal Graph Convolution Network and Transformer. Experimental results on both VRF-AG and VRF-VidOR datasets demonstrate that GCT outperforms the state-of-the-art sequence modelling methods on visual relationship forecasting.


翻译:为了应对这一挑战,我们在视频中展示了一个新的任务,即视觉关系预测(VRF),以探索以推理方式预测视觉关系。具体地说,鉴于一个主题对象和H现有框架的配对,VRF旨在预测下一个T框架的未来相互作用,而没有视觉证据。为了评估VRF的任务,我们引入了两个视频数据集,分别名为VRF-AG和VRF-VidOR, 并配有一系列spatio-Pentoral-impoly本地化视觉关系说明。这两个数据集在1923年和13447年分别是高度注13和35视觉关系。此外,我们提出了一个新的图表革命变形器框架,它通过时势变形图网络和变形器捕捉到目标级别和框架级别两方面的相互作用。 VRF-AG和VRF-VidOR-VidOR数据集的实验结果显示,GCT在视觉关系模型序列上超越了视觉关系的预测。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
【Manning新书】现代Java实战,592页pdf
专知会员服务
101+阅读 · 2020年5月22日
因果图,Causal Graphs,52页ppt
专知会员服务
254+阅读 · 2020年4月19日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Arxiv
3+阅读 · 2018年3月29日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
2+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Top
微信扫码咨询专知VIP会员