LoD-Loc v3: Generalized Aerial Localization in Dense Cities using Instance Silhouette Alignment - 专知论文

会员服务 ·

0

轮廓 · 对齐 · 泛化 · 泛化能力 · 城市环境 ·

LoD-Loc v3: Generalized Aerial Localization in Dense Cities using Instance Silhouette Alignment

翻译：LoD-Loc v3：基于实例轮廓对齐的密集城市通用空中定位

Shuaibang Peng,Juelin Zhu,Xia Li,Kun Yang,Maojun Zhang,Yu Liu,Shen Yan

from arxiv, Accepted to CVPR 2026

We present LoD-Loc v3, a novel method for generalized aerial visual localization in dense urban environments. While prior work LoD-Loc v2 achieves localization through semantic building silhouette alignment with low-detail city models, it suffers from two key limitations: poor cross-scene generalization and frequent failure in dense building scenes. Our method addresses these challenges through two key innovations. First, we develop a new synthetic data generation pipeline that produces InsLoD-Loc - the largest instance segmentation dataset for aerial imagery to date, comprising 100k images with precise instance building annotations. This enables trained models to exhibit remarkable zero-shot generalization capability. Second, we reformulate the localization paradigm by shifting from semantic to instance silhouette alignment, which significantly reduces pose estimation ambiguity in dense scenes. Extensive experiments demonstrate that LoD-Loc v3 outperforms existing state-of-the-art (SOTA) baselines, achieving superior performance in both cross-scene and dense urban scenarios with a large margin. The project is available at https://nudt-sawlab.github.io/LoD-Locv3/.

翻译：本文提出LoD-Loc v3，一种在密集城市环境中实现通用空中视觉定位的新方法。先前工作LoD-Loc v2通过语义建筑轮廓与低细节城市模型的对齐实现定位，但存在两个关键局限：跨场景泛化能力差且在高密度建筑场景中频繁失效。本方法通过两项核心创新解决上述挑战。首先，我们开发了新的合成数据生成流程，构建了目前规模最大的航拍图像实例分割数据集InsLoD-Loc，包含10万张带有精确建筑实例标注的图像。这使得训练模型展现出卓越的零样本泛化能力。其次，我们将定位范式从语义轮廓对齐重构为实例级轮廓对齐，显著降低了密集场景中的位姿估计歧义。大量实验表明，LoD-Loc v3显著超越现有最先进基线方法，在跨场景及密集城市场景中均以较大优势取得卓越性能。项目地址：https://nudt-sawlab.github.io/LoD-Locv3/。

0

相关内容

《战场GPS拒止环境下基于地标定位的安全路径导航》

《战场GPS拒止环境下基于地标定位的安全路径导航》

专知会员服务

19+阅读 · 2025年5月22日

《城市三维环境下无人机路径规划算法效能比较分析》

《城市三维环境下无人机路径规划算法效能比较分析》

专知会员服务

32+阅读 · 2025年3月25日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

《利用卷积神经网络实现无人地面战车在 GPS 信号屏蔽环境中的自主航行》最新135页

《利用卷积神经网络实现无人地面战车在 GPS 信号屏蔽环境中的自主航行》最新135页

专知会员服务

40+阅读 · 2024年11月11日

《智慧城市城市数字孪生第1部分：技术参考架构（征求意见稿）》

《智慧城市城市数字孪生第1部分：技术参考架构（征求意见稿）》

专知会员服务

38+阅读 · 2024年1月18日

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

专知会员服务

72+阅读 · 2023年4月3日

【智慧浮动城市 - 博士论文】《智慧城市概念中的多目标优化：智慧浮动城市(SFC)》

【智慧浮动城市 - 博士论文】《智慧城市概念中的多目标优化：智慧浮动城市(SFC)》

专知会员服务

36+阅读 · 2022年9月2日

《智慧城市知识图谱模型与本体构建方法》拓尔思知识图谱研究院等

《智慧城市知识图谱模型与本体构建方法》拓尔思知识图谱研究院等

专知会员服务

50+阅读 · 2022年3月27日

城市数字孪生标准化白皮书（2022版）

城市数字孪生标准化白皮书（2022版）

专知会员服务

178+阅读 · 2022年1月12日

【ICCV2021-Oral】重新思考人群中的计数和定位问题：一种完全基于点的全新框架

专知会员服务

12+阅读 · 2021年8月3日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

城市数字孪生标准化白皮书（2022版），60页pdf

城市数字孪生标准化白皮书（2022版），60页pdf

专知

25+阅读 · 2022年1月12日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

泡泡机器人SLAM

12+阅读 · 2018年10月2日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

基于车载激光点云的城市道路三维精细重建

国家自然科学基金

0+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

城市网络视角下我国多中心城市群空间结构演化研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于零相关序列的精确同步方法及其在航空集群交感网络中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DSM的建筑密集区域InSAR地形去除和相位解缠

国家自然科学基金

1+阅读 · 2015年12月31日

企业区位选择与中国西部城市空间重构

国家自然科学基金

0+阅读 · 2015年12月31日

基于语义网络的街区场景相似性研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于Lotka-Volterra种群模型和广义效益的公共交通出行结构优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

城市建筑群空间分布模式的识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception

Arxiv

0+阅读 · 5月11日

COMPASS: COmpact Multi-channel Prior-map And Scene Signature for Floor-Plan-Based Visual Localization

Arxiv

0+阅读 · 4月28日

Altitude-Adaptive Vision-Only Geo-Localization for UAVs in GPS-Denied Environments

Arxiv

0+阅读 · 4月24日

GeoRect4D: Geometry-Compatible Generative Rectification for Dynamic Sparse-View 3D Reconstruction

Arxiv

0+阅读 · 4月22日

GeoLink: A 3D-Aware Framework Towards Better Generalization in Cross-View Geo-Localization

Arxiv

0+阅读 · 4月16日

UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models

Arxiv

0+阅读 · 4月2日

Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming

Arxiv

0+阅读 · 3月26日

CoInfra: A Large-Scale Cooperative Infrastructure Perception System and Dataset for Vehicle-Infrastructure Cooperation in Adverse Weather

Arxiv

0+阅读 · 3月20日

ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy

Arxiv

0+阅读 · 3月20日

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

最新内容

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

0+阅读 · 10分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

1+阅读 · 22分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

1+阅读 · 33分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

1+阅读 · 42分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

1+阅读 · 46分钟前

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

1+阅读 · 50分钟前

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

1+阅读 · 54分钟前

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

相关VIP内容

《战场GPS拒止环境下基于地标定位的安全路径导航》

《战场GPS拒止环境下基于地标定位的安全路径导航》

专知会员服务

19+阅读 · 2025年5月22日

《城市三维环境下无人机路径规划算法效能比较分析》

《城市三维环境下无人机路径规划算法效能比较分析》

专知会员服务

32+阅读 · 2025年3月25日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

《利用卷积神经网络实现无人地面战车在 GPS 信号屏蔽环境中的自主航行》最新135页

《利用卷积神经网络实现无人地面战车在 GPS 信号屏蔽环境中的自主航行》最新135页

专知会员服务

40+阅读 · 2024年11月11日

《智慧城市城市数字孪生第1部分：技术参考架构（征求意见稿）》

《智慧城市城市数字孪生第1部分：技术参考架构（征求意见稿）》

专知会员服务

38+阅读 · 2024年1月18日

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

专知会员服务

72+阅读 · 2023年4月3日

【智慧浮动城市 - 博士论文】《智慧城市概念中的多目标优化：智慧浮动城市(SFC)》

【智慧浮动城市 - 博士论文】《智慧城市概念中的多目标优化：智慧浮动城市(SFC)》

专知会员服务

36+阅读 · 2022年9月2日

《智慧城市知识图谱模型与本体构建方法》拓尔思知识图谱研究院等

《智慧城市知识图谱模型与本体构建方法》拓尔思知识图谱研究院等

专知会员服务

50+阅读 · 2022年3月27日

城市数字孪生标准化白皮书（2022版）

城市数字孪生标准化白皮书（2022版）

专知会员服务

178+阅读 · 2022年1月12日

【ICCV2021-Oral】重新思考人群中的计数和定位问题：一种完全基于点的全新框架

专知会员服务

12+阅读 · 2021年8月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

美以伊冲突：无人机与人工智能的运用

《特种部队在透明战场中的生存力》最新报告

相关资讯

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

城市数字孪生标准化白皮书（2022版），60页pdf

城市数字孪生标准化白皮书（2022版），60页pdf

专知

25+阅读 · 2022年1月12日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

泡泡机器人SLAM

12+阅读 · 2018年10月2日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

相关论文

Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception

Arxiv

0+阅读 · 5月11日

COMPASS: COmpact Multi-channel Prior-map And Scene Signature for Floor-Plan-Based Visual Localization

Arxiv

0+阅读 · 4月28日

Altitude-Adaptive Vision-Only Geo-Localization for UAVs in GPS-Denied Environments

Arxiv

0+阅读 · 4月24日

GeoRect4D: Geometry-Compatible Generative Rectification for Dynamic Sparse-View 3D Reconstruction

Arxiv

0+阅读 · 4月22日

GeoLink: A 3D-Aware Framework Towards Better Generalization in Cross-View Geo-Localization

Arxiv

0+阅读 · 4月16日

UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models

Arxiv

0+阅读 · 4月2日

Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming

Arxiv

0+阅读 · 3月26日

CoInfra: A Large-Scale Cooperative Infrastructure Perception System and Dataset for Vehicle-Infrastructure Cooperation in Adverse Weather

Arxiv

0+阅读 · 3月20日

ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy

Arxiv

0+阅读 · 3月20日

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Arxiv

0+阅读 · 3月18日

相关基金

基于车载激光点云的城市道路三维精细重建

国家自然科学基金

0+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

城市网络视角下我国多中心城市群空间结构演化研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于零相关序列的精确同步方法及其在航空集群交感网络中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DSM的建筑密集区域InSAR地形去除和相位解缠

国家自然科学基金

1+阅读 · 2015年12月31日

企业区位选择与中国西部城市空间重构

国家自然科学基金

0+阅读 · 2015年12月31日

基于语义网络的街区场景相似性研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于Lotka-Volterra种群模型和广义效益的公共交通出行结构优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

城市建筑群空间分布模式的识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员