视频因果推理旨在从因果关系的角度实现对视频内容的高级理解。然而,当前的视频推理任务范围有限,主要是在问答范式中执行,且集中于只包含单一事件和简单因果关系的短视频,缺乏对多事件视频的全面和结构化的因果分析。为填补这一空白,我们引入了一项新任务和数据集:多事件因果发现(MECD)。其目标是在长视频中揭示按时间顺序分布的事件之间的因果关系。给定视觉片段和事件的文本描述,MECD要求识别这些事件之间的因果关联,以生成一个全面、结构化的事件级视频因果图,解释为何以及如何最终结果事件发生。 为应对MECD,我们设计了一个受Granger因果方法启发的新框架,使用基于掩码的高效事件预测模型进行事件Granger测试。通过比较掩码和未掩码的前提事件时预测的结果事件,估算因果关系。此外,我们还集成了因果推断技术,例如前门调整和反事实推理,以应对MECD中的因果混淆和虚幻因果等挑战。实验验证了我们框架在提供多事件视频因果关系上的有效性,分别超越了GPT-4o和VideoLLaVA 5.7%和4.1%。

成为VIP会员查看完整内容
19

相关内容

【SIGIR2024】GPT4Rec: 用于流式推荐的图提示微调
专知会员服务
19+阅读 · 2024年6月13日
【ICLR2022】序列生成的目标侧数据增强
专知会员服务
23+阅读 · 2022年2月14日
专知会员服务
19+阅读 · 2021年9月13日
专知会员服务
17+阅读 · 2021年8月25日
【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
13+阅读 · 2020年4月28日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 28分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
1+阅读 · 45分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
【SIGIR2024】GPT4Rec: 用于流式推荐的图提示微调
专知会员服务
19+阅读 · 2024年6月13日
【ICLR2022】序列生成的目标侧数据增强
专知会员服务
23+阅读 · 2022年2月14日
专知会员服务
19+阅读 · 2021年9月13日
专知会员服务
17+阅读 · 2021年8月25日
【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
13+阅读 · 2020年4月28日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员