基于受监管评估框架的空中交通管制AI智能体人机协同测试 (Human-in-the-Loop Testing of AI Agents for Air Traffic Control with a Regulated Assessment Framework) - 专知论文

会员服务 ·

0

AI · 协同 · 空中交通管制 · AI智能体 · 人机协同 ·

Human-in-the-Loop Testing of AI Agents for Air Traffic Control with a Regulated Assessment Framework

翻译：基于受监管评估框架的空中交通管制AI智能体人机协同测试

Ben Carvell,Marc Thomas,Andrew Pace,Christopher Dorney,George De Ath,Richard Everson,Nick Pepper,Adam Keane,Samuel Tomlinson,Richard Cannon

We present a rigorous, human-in-the-loop evaluation framework for assessing the performance of AI agents on the task of Air Traffic Control, grounded in a regulator-certified simulator-based curriculum used for training and testing real-world trainee controllers. By leveraging legally regulated assessments and involving expert human instructors in the evaluation process, our framework enables a more authentic and domain-accurate measurement of AI performance. This work addresses a critical gap in the existing literature: the frequent misalignment between academic representations of Air Traffic Control and the complexities of the actual operational environment. It also lays the foundations for effective future human-machine teaming paradigms by aligning machine performance with human assessment targets.

翻译：我们提出了一种严谨的人机协同评估框架，用于评估AI智能体在空管任务中的性能。该框架基于监管机构认证的模拟器训练体系——该体系同样用于真实世界见习管制员的培训与考核。通过采用法定监管的评估标准，并引入资深人类教员参与评估流程，我们的框架能够实现对AI性能更真实、更贴合领域特性的度量。本工作弥补了现有研究中的一个关键缺陷：学术界对空中交通管制的表征与实际运行环境的复杂性之间普遍存在的脱节现象。同时，通过将机器性能与人类评估目标对齐，本研究为未来高效的人机协同范式奠定了理论基础。

0

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

美军在联盟作战管理演练中测试人工智能赋能人机协同

美军在联盟作战管理演练中测试人工智能赋能人机协同

专知会员服务

19+阅读 · 1月10日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

人类与人工智能战斗飞行员的交互研究

人类与人工智能战斗飞行员的交互研究

专知会员服务

23+阅读 · 2025年10月23日

《用于战斗机实时飞行性能预测和评估的人工智能框架》

《用于战斗机实时飞行性能预测和评估的人工智能框架》

专知会员服务

29+阅读 · 2025年2月12日

《以人为本的军事人工智能测试与评估》

《以人为本的军事人工智能测试与评估》

专知会员服务

31+阅读 · 2024年12月25日

《人工智能系统测试与评估框架》美国防部联合人工智能中心

《人工智能系统测试与评估框架》美国防部联合人工智能中心

专知会员服务

81+阅读 · 2024年1月4日

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

专知会员服务

137+阅读 · 2023年7月10日

【AI+军事】附论文《基于混合流处理的战斗机飞行员心理状态实时评估的人工智能综合解决方案开发》

【AI+军事】附论文《基于混合流处理的战斗机飞行员心理状态实时评估的人工智能综合解决方案开发》

专知会员服务

41+阅读 · 2022年5月12日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

188+阅读 · 2022年4月15日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

114+阅读 · 2022年9月1日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

AI如何促进空军？麻省理工(DAF-MIT)发布《为美国空军开发一系列人工智能挑战》报告，发布挑战数据集和代码库，总结经验教训

AI如何促进空军？麻省理工(DAF-MIT)发布《为美国空军开发一系列人工智能挑战》报告，发布挑战数据集和代码库，总结经验教训

专知

13+阅读 · 2022年7月19日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

美空军即将试飞“天空博格人”智能程序，推动人工智能空战应用

美空军即将试飞“天空博格人”智能程序，推动人工智能空战应用

无人机

13+阅读 · 2019年7月24日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

27+阅读 · 2011年12月31日

"Crash Test Dummies" for AI-Enabled Clinical Assessment: Validating Virtual Patient Scenarios with Virtual Learners

Arxiv

0+阅读 · 1月26日

Preventing the Collapse of Peer Review Requires Verification-First AI

Arxiv

0+阅读 · 1月23日

Towards Airborne Object Detection: A Deep Learning Analysis

Arxiv

0+阅读 · 1月17日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

Toward Maturity-Based Certification of Embodied AI: Quantifying Trustworthiness Through Measurement Mechanisms

Arxiv

0+阅读 · 1月8日

A Future Capabilities Agent for Tactical Air Traffic Control

Arxiv

0+阅读 · 1月7日

A framework for assuring the accuracy and fidelity of an AI-enabled Digital Twin of en route UK airspace

A framework for assuring the accuracy and fidelity of an AI-enabled Digital Twin of en route UK airspace

Arxiv

0+阅读 · 1月6日

A Probabilistic Digital Twin of UK En Route Airspace for Training and Evaluating AI Agents for Air Traffic Control

Arxiv

0+阅读 · 1月6日

The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance

Arxiv

0+阅读 · 1月5日

Auditing Human Decision-Making in High-Stakes Environments via Prescriptive AI: A Stress-Test on Real-Time Tactical Management

Arxiv

0+阅读 · 1月4日

VIP会员

文章信息

相关主题

空中交通管制

相关VIP内容

美军在联盟作战管理演练中测试人工智能赋能人机协同

美军在联盟作战管理演练中测试人工智能赋能人机协同

专知会员服务

19+阅读 · 1月10日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

人类与人工智能战斗飞行员的交互研究

人类与人工智能战斗飞行员的交互研究

专知会员服务

23+阅读 · 2025年10月23日

《用于战斗机实时飞行性能预测和评估的人工智能框架》

《用于战斗机实时飞行性能预测和评估的人工智能框架》

专知会员服务

29+阅读 · 2025年2月12日

《以人为本的军事人工智能测试与评估》

《以人为本的军事人工智能测试与评估》

专知会员服务

31+阅读 · 2024年12月25日

《人工智能系统测试与评估框架》美国防部联合人工智能中心

《人工智能系统测试与评估框架》美国防部联合人工智能中心

专知会员服务

81+阅读 · 2024年1月4日

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

专知会员服务

137+阅读 · 2023年7月10日

【AI+军事】附论文《基于混合流处理的战斗机飞行员心理状态实时评估的人工智能综合解决方案开发》

【AI+军事】附论文《基于混合流处理的战斗机飞行员心理状态实时评估的人工智能综合解决方案开发》

专知会员服务

41+阅读 · 2022年5月12日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

188+阅读 · 2022年4月15日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

114+阅读 · 2022年9月1日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

AI如何促进空军？麻省理工(DAF-MIT)发布《为美国空军开发一系列人工智能挑战》报告，发布挑战数据集和代码库，总结经验教训

AI如何促进空军？麻省理工(DAF-MIT)发布《为美国空军开发一系列人工智能挑战》报告，发布挑战数据集和代码库，总结经验教训

专知

13+阅读 · 2022年7月19日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

美空军即将试飞“天空博格人”智能程序，推动人工智能空战应用

美空军即将试飞“天空博格人”智能程序，推动人工智能空战应用

无人机

13+阅读 · 2019年7月24日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

相关论文

"Crash Test Dummies" for AI-Enabled Clinical Assessment: Validating Virtual Patient Scenarios with Virtual Learners

Arxiv

0+阅读 · 1月26日

Preventing the Collapse of Peer Review Requires Verification-First AI

Arxiv

0+阅读 · 1月23日

Towards Airborne Object Detection: A Deep Learning Analysis

Arxiv

0+阅读 · 1月17日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

Toward Maturity-Based Certification of Embodied AI: Quantifying Trustworthiness Through Measurement Mechanisms

Arxiv

0+阅读 · 1月8日

A Future Capabilities Agent for Tactical Air Traffic Control

Arxiv

0+阅读 · 1月7日

A framework for assuring the accuracy and fidelity of an AI-enabled Digital Twin of en route UK airspace

A framework for assuring the accuracy and fidelity of an AI-enabled Digital Twin of en route UK airspace

Arxiv

0+阅读 · 1月6日

A Probabilistic Digital Twin of UK En Route Airspace for Training and Evaluating AI Agents for Air Traffic Control

Arxiv

0+阅读 · 1月6日

The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance

Arxiv

0+阅读 · 1月5日

Auditing Human Decision-Making in High-Stakes Environments via Prescriptive AI: A Stress-Test on Real-Time Tactical Management

Arxiv

0+阅读 · 1月4日

相关基金

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

27+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员