Open-vocabulary scene graph generation (SGG) aims to describe visual scenes with flexible relation phrases beyond a fixed predicate set. Existing methods usually treat annotated triplets as positives and all unannotated object-pair relations as negatives. However, scene graph annotations are inherently incomplete: many valid relations are missing, and the same interaction can be described at different granularities, e.g., \textit{on}, \textit{standing on}, \textit{resting on}, and \textit{supported by}. This issue becomes more severe in open-vocabulary SGG due to the much larger relation space. We propose \textbf{ReLIC-SGG}, a relation-incompleteness-aware framework that treats unannotated relations as latent variables rather than definite negatives. ReLIC-SGG builds a semantic relation lattice to model similarity, entailment, and contradiction among open-vocabulary predicates, and uses it to infer missing positive relations from visual-language compatibility, graph context, and semantic consistency. A positive-unlabeled graph learning objective further reduces false-negative supervision, while lattice-guided decoding produces compact and semantically consistent scene graphs. Experiments on conventional, open-vocabulary, and panoptic SGG benchmarks show that ReLIC-SGG improves rare and unseen predicate recognition and better recovers missing relations.


翻译:开放词汇场景图生成(Open-vocabulary SGG)旨在超越固定谓词集合,使用灵活的关系短语描述视觉场景。现有方法通常将标注的三元组视为正样本,而将所有未标注的对象对关系视为负样本。然而,场景图标注本质上具有不完整性:许多有效关系缺失,且同一交互行为可用不同粒度描述,例如\textit{在...上}、\textit{站立在...上}、\textit{停放在...上}和\textit{由...支撑}。由于开放词汇场景图生成的关系空间显著扩大,此问题更为严峻。我们提出\textbf{ReLIC-SGG}——一种感知关系不完整性的框架,将未标注关系视为潜在变量而非明确负样本。ReLIC-SGG构建语义关系格以建模开放词汇谓词间的相似性、蕴含与矛盾关系,并利用该结构从视觉-语言兼容性、图上下文及语义一致性中推断缺失的正关系。正-无标签图学习目标进一步减少假阴性监督,而格引导的解码过程生成紧凑且语义一致的场景图。在传统、开放词汇及全景场景图生成基准上的实验表明,ReLIC-SGG显著提升了罕见与未见谓词的识别能力,并更有效地恢复了缺失关系。

0
下载
关闭预览

相关内容

【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
场景图生成:一个全面综述
专知会员服务
67+阅读 · 2022年1月4日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
场景图生成:一个全面综述
专知会员服务
67+阅读 · 2022年1月4日
相关资讯
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员