Autonomous aerial robots operating in GPS-denied or communication-degraded environments frequently lose access to camera metadata and telemetry, leaving onboard perception systems unable to recover the absolute metric scale of the scene. As LLM/VLM-based planners are increasingly adopted as high-level agents for embodied systems, their ability to reason about physical dimensions becomes safety-critical -- yet our experiments show that five state-of-the-art VLMs suffer from spatial scale hallucinations, with median area estimation errors exceeding 50%. We propose VANGUARD, a lightweight, deterministic Geometric Perception Skill designed as a callable tool that any LLM-based agent can invoke to recover Ground Sample Distance (GSD) from ubiquitous environmental anchors: small vehicles detected via oriented bounding boxes, whose modal pixel length is robustly estimated through kernel density estimation and converted to GSD using a pre-calibrated reference length. The tool returns both a GSD estimate and a composite confidence score, enabling the calling agent to autonomously decide whether to trust the measurement or fall back to alternative strategies. On the DOTA~v1.5 benchmark, VANGUARD achieves 6.87% median GSD error on 306~images. Integrated with SAM-based segmentation for downstream area measurement, the pipeline yields 19.7% median error on a 100-entry benchmark -- with 2.6x lower category dependence and 4x fewer catastrophic failures than the best VLM baseline -- demonstrating that equipping agents with deterministic geometric tools is essential for safe autonomous spatial reasoning.


翻译:在GPS拒止或通信降级环境中运行的自主空中机器人,常因无法获取相机元数据与遥测信息,导致机载感知系统难以恢复场景的绝对度量尺度。随着基于LLM/VLM的规划器日益成为具身系统的高层智能体,其对物理尺寸的推理能力变得至关重要——然而我们的实验表明,五种前沿VLM均存在空间尺度幻觉问题,其中位数面积估计误差超过50%。本文提出VANGUARD:一种轻量级、确定性的几何感知技能,设计为可调用工具,可供任何基于LLM的智能体调用,通过普适的环境锚点——即通过定向边界框检测的小型车辆——恢复地面采样距离(GSD)。该方法通过核密度估计稳健计算车辆模态像素长度,并利用预校准的参考长度转换为GSD。该工具同时返回GSD估计值与复合置信度评分,使调用智能体能自主决定是否采信该测量值或转用备用策略。在DOTA~v1.5基准测试中,VANGUARD在306幅图像上实现了6.87%的中位数GSD误差。结合基于SAM的分割技术进行下游面积测量,该流程在包含100条数据的基准测试中取得19.7%的中位数误差——其类别依赖性较最佳VLM基线降低2.6倍,灾难性故障减少4倍——证明为智能体配备确定性几何工具对实现安全的自主空间推理至关重要。

0
下载
关闭预览

相关内容

《动态对抗环境下无人机路径规划算法》
专知会员服务
40+阅读 · 2025年7月22日
《战场GPS拒止环境下基于地标定位的安全路径导航》
专知会员服务
18+阅读 · 2025年5月22日
基于视觉的无人机定位与导航方法研究综述
专知会员服务
21+阅读 · 2025年5月21日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
国外有人/无人平台协同作战概述
无人机
123+阅读 · 2019年5月28日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
智能无人作战系统的发展
科技导报
36+阅读 · 2018年6月29日
无人机飞行控制方法概述
无人机
12+阅读 · 2017年10月7日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2011年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
最新内容
【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA
专知会员服务
0+阅读 · 今天16:23
安杜里尔与Meta研发军用智能眼镜的内幕
专知会员服务
5+阅读 · 今天8:47
超越步调威胁:整合人工智能以加速指挥决策
专知会员服务
5+阅读 · 今天8:08
Nature三连发AI自主科学发现论文
专知会员服务
7+阅读 · 5月21日
安杜里尔与人工智能驱动防务的崛起
专知会员服务
14+阅读 · 5月21日
《Palantir平台:FOUNDRY与AIP服务定义文档》
专知会员服务
15+阅读 · 5月21日
2025年科学计算行业发展研究报告
专知会员服务
9+阅读 · 5月20日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2011年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员