In this paper, we propose SGFormer++, a novel Semantic Graph Transformer for 3D scene graph generation (SGG), which aims to parse point cloud scenes into semantic structural graphs, where nodes denote detected object instances and edges encode their pairwise relationships, with the core challenge lying in modeling complex global scene structure. While existing graph convolutional network (GCN)-based methods suffer from over-smoothing and limited receptive fields, SGFormer++ leverages Transformer layers as its backbone to enable global message passing. Specifically, we introduce two key components tailored for 3D SGG: (1) a Graph Embedding Layer++ that efficiently integrates edge-aware global context with linear computational complexity, and (2) a Semantic Injection Layer++ that enriches visual features with linguistic priors from large language models (LLMs) and vision-language models (VLMs), boosting semantic representation without introducing extra trainable parameters. To further address the practical challenge of incremental SGG (I-SGG), where new relationship categories arrive sequentially, we equip SGFormer++ with a novel Spatial-guided Feature Adapter, which calibrates predicate features using subject-object spatial geometry to counter scale variation, and a Cascaded Binary Prediction Head that mitigates catastrophic forgetting via task-incremental classifier expansion and logit distillation. Extensive experiments on the 3DSSG benchmark demonstrate that SGFormer++ achieves state-of-the-art performance in both standard and incremental settings: it yields a significant 4.49% absolute improvement in Predicate A@1 under the incremental setting. Code and data are available at: https://github.com/Andy20178/SGFormer.


翻译:本文提出SGFormer++——一种用于三维场景图生成(SGG)的新型语义图变换器,旨在将点云场景解析为语义结构图,其中节点表示检测到的物体实例,边编码其成对关系,核心挑战在于建模复杂的全局场景结构。现有基于图卷积网络(GCN)的方法存在过平滑与感受野受限问题,而SGFormer++以Transformer层为骨干实现全局消息传递。具体而言,我们引入两个针对三维SGG定制的关键组件:(1)图嵌入层++,以线性计算复杂度高效集成边感知的全局上下文;(2)语义注入层++,利用大语言模型(LLM)和视觉-语言模型(VLM)的语言先验增强视觉特征,在不引入额外可训练参数的前提下提升语义表征。为应对增量式SGG(I-SGG)中新型关系类别顺序到达的实际挑战,我们进一步为SGFormer++配备:空间引导特征适配器,利用主客体空间几何校准谓词特征以应对尺度变化;以及级联二值预测头,通过任务增量分类器扩展与logit蒸馏缓解灾难性遗忘。在3DSSG基准上的大量实验表明,SGFormer++在标准与增量设置下均达到最优性能:在增量设置中,谓词A@1指标实现4.49%的绝对提升。代码与数据见:https://github.com/Andy20178/SGFormer。

0
下载
关闭预览

相关内容

图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
「图Transformers」综述
专知会员服务
28+阅读 · 2024年7月16日
【IJCAI2024】Gradformer:具有指数衰减的图变换器
专知会员服务
17+阅读 · 2024年4月25日
Graph Transformer近期进展
专知会员服务
65+阅读 · 2023年1月5日
【AAAI2021】双级协作变换器Transformer图像描述生成
专知会员服务
27+阅读 · 2021年1月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
108+阅读 · 2020年8月30日
WWW 2020 开源论文 | 异构图Transformer
PaperWeekly
13+阅读 · 2020年4月3日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
18+阅读 · 2019年4月22日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
「图Transformers」综述
专知会员服务
28+阅读 · 2024年7月16日
【IJCAI2024】Gradformer:具有指数衰减的图变换器
专知会员服务
17+阅读 · 2024年4月25日
Graph Transformer近期进展
专知会员服务
65+阅读 · 2023年1月5日
【AAAI2021】双级协作变换器Transformer图像描述生成
专知会员服务
27+阅读 · 2021年1月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
108+阅读 · 2020年8月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员