3D Semantic Scene Graph Prediction aims to detect objects and their semantic relationships in 3D scenes, and has emerged as a crucial technology for robotics and AR/VR applications. While previous research has addressed dataset limitations and explored various approaches including Open-Vocabulary settings, they frequently fail to optimize the representational capacity of object and relationship features, showing excessive reliance on Graph Neural Networks despite insufficient discriminative capability. In this work, we demonstrate through extensive analysis that the quality of object features plays a critical role in determining overall scene graph accuracy. To address this challenge, we design a highly discriminative object feature encoder and employ a contrastive pretraining strategy that decouples object representation learning from the scene graph prediction. This design not only enhances object classification accuracy but also yields direct improvements in relationship prediction. Notably, when plugging in our pretrained encoder into existing frameworks, we observe substantial performance improvements across all evaluation metrics. Additionally, whereas existing approaches have not fully exploited the integration of relationship information, we effectively combine both geometric and semantic features to achieve superior relationship prediction. Comprehensive experiments on the 3DSSG dataset demonstrate that our approach significantly outperforms previous state-of-the-art methods. Our code is publicly available at https://github.com/VisualScienceLab-KHU/OCRL-3DSSG-Codes.


翻译:三维语义场景图预测旨在检测三维场景中的对象及其语义关系,已成为机器人与增强现实/虚拟现实应用中的关键技术。尽管先前研究已针对数据集局限性展开探讨,并探索了包括开放词汇表设置在内的多种方法,但这些方法往往未能优化对象与关系特征的表示能力,表现出对图神经网络过度依赖而判别能力不足的问题。在本研究中,我们通过深入分析证明对象特征的质量对整体场景图预测精度具有决定性影响。为应对这一挑战,我们设计了一种高判别性的对象特征编码器,并采用对比预训练策略将对象表征学习与场景图预测任务解耦。该设计不仅提升了对象分类精度,还直接改善了关系预测性能。值得注意的是,将我们预训练的编码器嵌入现有框架后,所有评估指标均呈现显著性能提升。此外,现有方法尚未充分挖掘关系信息的整合潜力,我们通过有效融合几何特征与语义特征实现了更优的关系预测。在3DSSG数据集上的综合实验表明,本方法显著超越了现有最优方法。相关代码已公开于https://github.com/VisualScienceLab-KHU/OCRL-3DSSG-Codes。

0
下载
关闭预览

相关内容

用于三维医学影像理解的综合语言–图像预训练
专知会员服务
7+阅读 · 2025年11月5日
【ETHZ博士论文】神经场景表示用于三维重建和场景理解
专知会员服务
37+阅读 · 2024年3月15日
以数据为中心的图机器学习
专知会员服务
37+阅读 · 2023年9月25日
通俗易懂!《图机器学习导论》附69页PPT
专知
55+阅读 · 2019年12月27日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员