Point cloud semantic segmentation requires architectures that capture both fine-grained local geometry and broad global scene structure. Transformer-based networks have demonstrated strong performance by focusing on detailed local feature aggregation; however, global context is conveyed primarily through skip connections across encoder-decoder stages, which we argue is insufficient for full scene understanding. We hypothesize that augmenting skip connections with a learnable global feature extraction module allows the network to acquire scene-level knowledge before descending into local detail, leading to richer and more contextually grounded representations. To this end, we propose Point Transformer with Wavelet Neural Operato (PT-WNO), which integrates a shared Wavelet Neural Operator (WNO) branch alongside the skip connections of a point cloud transformer backbone. At each encoder-decoder transition, point features are projected onto a dense 3D volumetric grid where the WNO captures multi-scale global spectral context through learnable wavelet decomposition and reconstruction. These global features are fused back into the network via lightweight adapters, complementing rather than replacing the existing skip connections. Experiments on four large-scale 3D point cloud benchmarks demonstrate the effectiveness of PT-WNO. On S3DIS (Area 5), PT-WNO achieves 71.59% mIoU, outperforming the Point Transformer v3 (PTv3) baseline by +1.03 points. On DALES it achieves 81.05% mIoU (+1.47 over the baseline). On ScanNet~v2, PT-WNO obtains 76.19% mIoU, remaining competitive with the baseline (76.36%).


翻译:点云语义分割需要既能捕捉精细局部几何结构又能理解广阔全局场景特征的网络架构。基于Transformer的网络通过聚焦于细致局部特征聚合展现了强劲性能,然而我们认为其全局上下文主要通过编码器-解码器阶段的跨层连接传递,这对于完整场景理解仍显不足。我们假设在跨层连接中引入可学习的全局特征提取模块,能使网络在进入局部细节处理前获取场景级知识,从而生成更丰富且更具语境支撑的表征。为此,我们提出点Transformer与小波神经算子融合网络(PT-WNO),该网络在点云Transformer骨干网络的跨层连接旁集成了共享的小波神经算子(WNO)分支。在每个编码器-解码器过渡阶段,点特征被投影到密集的三维体素网格上,WNO通过可学习的小波分解与重构捕获多尺度全局频谱上下文。这些全局特征通过轻量级适配器回融至网络,对现有跨层连接进行补充而非替代。在四个大规模三维点云基准上的实验验证了PT-WNO的有效性:在S3DIS(Area 5)上,PT-WNO达到71.59% mIoU,较Point Transformer v3(PTv3)基线提升1.03个百分点;在DALES上获得81.05% mIoU(较基线提高1.47个百分点);在ScanNet v2上取得76.19% mIoU,与基线结果(76.36%)保持竞争力。

0
下载
关闭预览

相关内容

根据激光测量原理得到的点云,包括三维坐标(XYZ)和激光反射强度(Intensity)。 根据摄影测量原理得到的点云,包括三维坐标(XYZ)和颜色信息(RGB)。 结合激光测量和摄影测量原理得到点云,包括三维坐标(XYZ)、激光反射强度(Intensity)和颜色信息(RGB)。 在获取物体表面每个采样点的空间坐标后,得到的是一个点的集合,称之为“点云”(Point Cloud)
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
专知会员服务
75+阅读 · 2021年1月16日
专知会员服务
87+阅读 · 2021年1月7日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
54+阅读 · 2019年7月23日
【泡泡点云时空】PointConv: 3D点云的深度卷积网络
泡泡机器人SLAM
23+阅读 · 2019年6月12日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
【泡泡点云时空】集成深度语义分割的3D点云配准
泡泡机器人SLAM
28+阅读 · 2018年11月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员