FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition - 专知论文

会员服务 ·

0

监督 · 预训练 · 重建 · 动作识别 · 识别 ·

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

翻译：FALCON：面向无人机动作识别的未来感知与上下文对象中心化预训练

Ruiqi Xian,Xiyang Wu,Tianrui Guan,Xijun Wang,Boqing Gong,Dinesh Manocha

We introduce FALCON, a unified self-supervised video pretraining approach for UAV action recognition from raw RGB aerial footage, requiring no additional preprocessing at inference. UAV videos exhibit severe spatial imbalance: large, cluttered backgrounds dominate the field of view, causing reconstruction-based pretraining to waste capacity on uninformative regions and under-learn action-relevant human/object cues. FALCON addresses this by integrating object-aware masked autoencoding with object-centric dual-horizon future reconstruction. Using detections only during pretraining, we construct objectness priors that (i) enforce balanced token visibility during masking and (ii) concentrate reconstruction supervision on action-relevant regions, preventing learning from being dominated by background appearance. To promote temporal dynamics learning, we further reconstruct short- and long-horizon future content within an object-centric supervision region, injecting anticipatory temporal supervision that is robust to noisy aerial context. Across UAV benchmarks, FALCON improves top-1 accuracy by 2.9\% on NEC-Drone and 5.8\% on UAV-Human with a ViT-B backbone, while achieving 2$\times$--5$\times$ faster inference than supervised approaches that rely on heavy test-time augmentation.

翻译：本文提出FALCON，一种用于无人机动作识别的统一自监督视频预训练方法，可直接处理原始RGB航拍影像，无需在推理阶段进行额外预处理。无人机视频存在严重的空间不平衡问题：庞大而杂乱的背景占据视野主导地位，导致基于重建的预训练方法将模型容量浪费在信息贫乏区域，难以充分学习与动作相关的人体/物体特征。FALCON通过整合对象感知掩码自编码与对象中心化双时间跨度未来重建来解决这一问题。仅在预训练阶段使用检测结果，我们构建了对象性先验以：（i）在掩码过程中强制实现均衡的令牌可见性；（ii）将重建监督集中于动作相关区域，防止学习过程被背景外观主导。为促进时序动态学习，我们进一步在对象中心化监督区域内重建短时与长时未来内容，注入对噪声航拍环境具有鲁棒性的前瞻性时序监督。在无人机基准测试中，采用ViT-B骨干网络时，FALCON在NEC-Drone数据集上提升Top-1准确率2.9%，在UAV-Human数据集上提升5.8%，同时推理速度比依赖复杂测试时数据增强的监督方法快2至5倍。

0

相关内容

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

10+阅读 · 2025年5月6日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《用于军事行动实时三维场景分析的人工智能无人智能体》

《用于军事行动实时三维场景分析的人工智能无人智能体》

专知会员服务

67+阅读 · 2024年8月13日

深度强化学习的无人作战飞机空战机动决策

深度强化学习的无人作战飞机空战机动决策

专知会员服务

120+阅读 · 2023年5月22日

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

专知会员服务

75+阅读 · 2023年2月6日

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

专知会员服务

54+阅读 · 2022年11月14日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

120+阅读 · 2022年6月20日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

40+阅读 · 2022年4月24日

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

专知会员服务

44+阅读 · 2020年1月20日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《作战无人机系统（UAS）概念开发和实验的性能测量》加拿大国防研究与发展部2022最新35页报告

《作战无人机系统（UAS）概念开发和实验的性能测量》加拿大国防研究与发展部2022最新35页报告

专知

34+阅读 · 2022年10月11日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

深度学习

15+阅读 · 2018年12月19日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

无人机飞行控制方法概述

无人机飞行控制方法概述

无人机

12+阅读 · 2017年10月7日

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

4+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

无人机自主导航中LiDAR点云与图像特征提取与配准方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

高动态编队无人机自主高精度时间同步方法研究

国家自然科学基金

11+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

27+阅读 · 2011年12月31日

Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation

Arxiv

0+阅读 · 4月23日

CamReasoner: Reinforcing Camera Movement Understanding via Structured Spatial Reasoning

Arxiv

0+阅读 · 4月14日

Vision-Based End-to-End Learning for UAV Traversal of Irregular Gaps via Differentiable Simulation

Arxiv

0+阅读 · 4月7日

SFFNet: Synergistic Feature Fusion Network With Dual-Domain Edge Enhancement for UAV Image Object Detection

Arxiv

0+阅读 · 4月3日

Learning to See and Act: Task-Aware Virtual View Exploration for Robotic Manipulation

Arxiv

0+阅读 · 3月18日

FAlCon: A unified framework for algorithmic control of quantum dot devices

Arxiv

0+阅读 · 3月17日

Communication-Aware Multi-Agent Reinforcement Learning for Decentralized Cooperative UAV Deployment

Arxiv

1+阅读 · 3月17日

Fillerbuster: Unified Generative Scene Completion Model for Casual Captures

Arxiv

0+阅读 · 3月16日

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Arxiv

0+阅读 · 3月10日

LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

最新内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

1+阅读 · 今天12:32

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

1+阅读 · 今天12:28

全球十大防空反导系统：列表、射程与用途

全球十大防空反导系统：列表、射程与用途

专知会员服务

10+阅读 · 今天3:53

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

专知会员服务

20+阅读 · 今天3:03

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

专知会员服务

15+阅读 · 今天2:35

《实现协作自主：从人机团队到多智能体系统》190页

《实现协作自主：从人机团队到多智能体系统》190页

专知会员服务

11+阅读 · 今天2:31

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

专知会员服务

7+阅读 · 今天2:28

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

专知会员服务

8+阅读 · 今天2:25

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

4+阅读 · 5月12日

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

专知会员服务

7+阅读 · 5月12日

《美军软件工厂案例研究：空军数字人才的人员需求》

《美军软件工厂案例研究：空军数字人才的人员需求》

专知会员服务

11+阅读 · 5月12日

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

专知会员服务

11+阅读 · 5月12日

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

专知会员服务

22+阅读 · 5月12日

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

10+阅读 · 5月12日

下一代软件定义无线电：锻造现代战场的数字支柱

下一代软件定义无线电：锻造现代战场的数字支柱

专知会员服务

9+阅读 · 5月12日

相关VIP内容

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

10+阅读 · 2025年5月6日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《用于军事行动实时三维场景分析的人工智能无人智能体》

《用于军事行动实时三维场景分析的人工智能无人智能体》

专知会员服务

67+阅读 · 2024年8月13日

深度强化学习的无人作战飞机空战机动决策

深度强化学习的无人作战飞机空战机动决策

专知会员服务

120+阅读 · 2023年5月22日

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

专知会员服务

75+阅读 · 2023年2月6日

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

专知会员服务

54+阅读 · 2022年11月14日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

120+阅读 · 2022年6月20日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

40+阅读 · 2022年4月24日

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

专知会员服务

44+阅读 · 2020年1月20日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

热门VIP内容

开通专知VIP会员享更多权益服务

世界动作模型: 具身AI的下一个前沿

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

【博士论文】面向可扩展且可信智能系统的强化学习

全球十大防空反导系统：列表、射程与用途

相关资讯

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《作战无人机系统（UAS）概念开发和实验的性能测量》加拿大国防研究与发展部2022最新35页报告

《作战无人机系统（UAS）概念开发和实验的性能测量》加拿大国防研究与发展部2022最新35页报告

专知

34+阅读 · 2022年10月11日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

深度学习

15+阅读 · 2018年12月19日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

无人机飞行控制方法概述

无人机飞行控制方法概述

无人机

12+阅读 · 2017年10月7日

相关论文

Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation

Arxiv

0+阅读 · 4月23日

CamReasoner: Reinforcing Camera Movement Understanding via Structured Spatial Reasoning

Arxiv

0+阅读 · 4月14日

Vision-Based End-to-End Learning for UAV Traversal of Irregular Gaps via Differentiable Simulation

Arxiv

0+阅读 · 4月7日

SFFNet: Synergistic Feature Fusion Network With Dual-Domain Edge Enhancement for UAV Image Object Detection

Arxiv

0+阅读 · 4月3日

Learning to See and Act: Task-Aware Virtual View Exploration for Robotic Manipulation

Arxiv

0+阅读 · 3月18日

FAlCon: A unified framework for algorithmic control of quantum dot devices

Arxiv

0+阅读 · 3月17日

Communication-Aware Multi-Agent Reinforcement Learning for Decentralized Cooperative UAV Deployment

Arxiv

1+阅读 · 3月17日

Fillerbuster: Unified Generative Scene Completion Model for Casual Captures

Arxiv

0+阅读 · 3月16日

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Arxiv

0+阅读 · 3月10日

LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

Arxiv

0+阅读 · 3月2日

相关基金

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

4+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

无人机自主导航中LiDAR点云与图像特征提取与配准方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

高动态编队无人机自主高精度时间同步方法研究

国家自然科学基金

11+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

27+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员