TraceGuard: Structured Multi-Dimensional Monitoring as a Collusion-Resistant Control Protocol - 专知论文

会员服务 ·

0

攻击 · 结构 · 结构化 · 多维度 · 控制协议 ·

TraceGuard: Structured Multi-Dimensional Monitoring as a Collusion-Resistant Control Protocol

翻译：TraceGuard: 结构化多维度监控作为抗共谋控制协议

Khanh Linh Nguyen,Hoa Nghiem,Tu Tran

AI control protocols use monitors to detect attacks by untrusted AI agents, but standard single-score monitors face two limitations: they miss subtle attacks where outputs look clean but reasoning is off, and they collapse to near-zero safety when the monitor is the same model as the agent (collusion). We present TraceGuard, a structured multi-dimensional monitoring protocol that evaluates agent actions across five dimensions -- goal alignment, constraint adherence, reasoning coherence, safety awareness, and action-trace consistency -- scored in parallel by independent LLM calls, augmented by seven heuristic detectors and an LLM-based intent analyzer. We evaluate on BashArena (637 bash tasks, 4 attack categories) within the ControlArena framework. Our results on 519 samples (279 honest, 240 attack) show that: (1) the hybrid approach achieves clear attack-honest separation (attack mean 0.616 vs. honest mean 0.206, Delta=0.410); (2) structured scoring constrains collusion -- the untrusted structured monitor achieves 95% safety vs. 0% for single-score untrusted monitoring; (3) goal alignment and constraint adherence are the most discriminative dimensions; and (4) a separation-of-duties variant splitting dimensions across trusted and untrusted models achieves 100% safety while preventing any single model from seeing the full evaluation. TraceGuard is implemented as a new monitor type for the open-source ControlArena framework.

翻译：人工智能控制协议使用监控器来检测不可信AI代理的攻击，但标准单分数监控器面临两个限制：它们会遗漏那些输出看似干净但推理存在问题的隐蔽攻击，并且当监控器与代理是同一模型时（共谋），安全性会骤降至接近零。我们提出TraceGuard——一种结构化多维度监控协议，该协议通过独立的LLM调用并行评估代理在五个维度上的行为：目标对齐、约束遵守、推理连贯性、安全意识和行动-轨迹一致性，并辅以七个启发式检测器和一个基于LLM的意图分析器。我们在ControlArena框架内的BashArena（637个bash任务，4种攻击类别）上进行评估。基于519个样本（279个诚实样本，240个攻击样本）的结果表明：（1）混合方法实现了清晰的攻击-诚实分离（攻击均值0.616 vs. 诚实均值0.206，差值Delta=0.410）；（2）结构化评分约束了共谋——不可信结构化监控器实现95%安全性，而单分数不可信监控器为0%；（3）目标对齐和约束遵守是最具区分度的维度；（4）一种将维度拆分到可信与不可信模型之间的职责分离变体实现了100%安全性，同时防止任何单一模型看到完整评估。TraceGuard作为开源ControlArena框架的一种新型监控器实现。

0

相关内容

《任务中心化指标：提升国防行动中人工智能系统的可靠性与稳健性》最新报告

《任务中心化指标：提升国防行动中人工智能系统的可靠性与稳健性》最新报告

专知会员服务

22+阅读 · 2月22日

《共享代理、意图一致性与分布式智能：协同空战的科学框架》最新40页报告

《共享代理、意图一致性与分布式智能：协同空战的科学框架》最新40页报告

专知会员服务

40+阅读 · 2月10日

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

专知会员服务

29+阅读 · 2025年12月11日

《军事领域人工智能网络安全的数字主权控制框架》

《军事领域人工智能网络安全的数字主权控制框架》

专知会员服务

21+阅读 · 2025年9月20日

人工智能如何增强军事监控与边境安全

人工智能如何增强军事监控与边境安全

专知会员服务

21+阅读 · 2025年3月20日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

专知会员服务

72+阅读 · 2025年2月21日

重新定义防空：先进指挥与控制，实现卓越态势感知能力

重新定义防空：先进指挥与控制，实现卓越态势感知能力

专知会员服务

35+阅读 · 2025年2月3日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图景》

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图景》

专知会员服务

91+阅读 · 2024年12月2日

《多维度剖析大规模网络的网络威胁》83页论文

《多维度剖析大规模网络的网络威胁》83页论文

专知会员服务

33+阅读 · 2023年7月29日

《敏捷、抗脆弱、以人工智能为基础的指挥和控制》万字长文，中文版，新南威尔士大学

《敏捷、抗脆弱、以人工智能为基础的指挥和控制》万字长文，中文版，新南威尔士大学

专知会员服务

80+阅读 · 2022年5月18日

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

43+阅读 · 2022年7月27日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

国外有人/无人平台协同作战概述

国外有人/无人平台协同作战概述

无人机

123+阅读 · 2019年5月28日

腾讯：机器学习构建通用的数据异常检测平台

腾讯：机器学习构建通用的数据异常检测平台

全球人工智能

11+阅读 · 2018年5月1日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

多变化环境监测系统的系统诊断结构与高效诊断算法分析与研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

结构监测系统多维传感网络的节点优化及其监管方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

An AI Security Agent for University ACMIS: Multi-Vector Threat Detection and Automated Response

Arxiv

0+阅读 · 6月14日

The Distributed Detectability Band Against Marginal-Preserving Attacks

Arxiv

0+阅读 · 6月13日

CogGuard: Cognitive and Operational Profiling for Proactive Warning in Edge Intelligent Services

Arxiv

0+阅读 · 6月13日

SAIGuard: Communication-State Simulation for Proactive Defense of LLM Multi-Agent Systems

Arxiv

0+阅读 · 6月10日

The Distributed Detectability Band Against Marginal-Preserving Attacks

Arxiv

0+阅读 · 6月9日

SHIELD-IDS: Structurally Heterogeneous Ensemble with Integrated Layered Defense for Intrusion Detection Systems

Arxiv

0+阅读 · 6月5日

TRACE: Trajectory Reasoning through Adaptive Cross-Step Evidence Aggregation for LLM Agents

Arxiv

0+阅读 · 6月5日

Toward a Generalized Defense Across Sparse, Continuous, and Structured Parameter Attacks

Arxiv

0+阅读 · 6月3日

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

Arxiv

0+阅读 · 4月26日

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Arxiv

0+阅读 · 4月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《任务中心化指标：提升国防行动中人工智能系统的可靠性与稳健性》最新报告

《任务中心化指标：提升国防行动中人工智能系统的可靠性与稳健性》最新报告

专知会员服务

22+阅读 · 2月22日

《共享代理、意图一致性与分布式智能：协同空战的科学框架》最新40页报告

《共享代理、意图一致性与分布式智能：协同空战的科学框架》最新40页报告

专知会员服务

40+阅读 · 2月10日

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

专知会员服务

29+阅读 · 2025年12月11日

《军事领域人工智能网络安全的数字主权控制框架》

《军事领域人工智能网络安全的数字主权控制框架》

专知会员服务

21+阅读 · 2025年9月20日

人工智能如何增强军事监控与边境安全

人工智能如何增强军事监控与边境安全

专知会员服务

21+阅读 · 2025年3月20日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

专知会员服务

72+阅读 · 2025年2月21日

重新定义防空：先进指挥与控制，实现卓越态势感知能力

重新定义防空：先进指挥与控制，实现卓越态势感知能力

专知会员服务

35+阅读 · 2025年2月3日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图景》

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图景》

专知会员服务

91+阅读 · 2024年12月2日

《多维度剖析大规模网络的网络威胁》83页论文

《多维度剖析大规模网络的网络威胁》83页论文

专知会员服务

33+阅读 · 2023年7月29日

《敏捷、抗脆弱、以人工智能为基础的指挥和控制》万字长文，中文版，新南威尔士大学

《敏捷、抗脆弱、以人工智能为基础的指挥和控制》万字长文，中文版，新南威尔士大学

专知会员服务

80+阅读 · 2022年5月18日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

43+阅读 · 2022年7月27日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

国外有人/无人平台协同作战概述

国外有人/无人平台协同作战概述

无人机

123+阅读 · 2019年5月28日

腾讯：机器学习构建通用的数据异常检测平台

腾讯：机器学习构建通用的数据异常检测平台

全球人工智能

11+阅读 · 2018年5月1日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

相关论文

An AI Security Agent for University ACMIS: Multi-Vector Threat Detection and Automated Response

Arxiv

0+阅读 · 6月14日

The Distributed Detectability Band Against Marginal-Preserving Attacks

Arxiv

0+阅读 · 6月13日

CogGuard: Cognitive and Operational Profiling for Proactive Warning in Edge Intelligent Services

Arxiv

0+阅读 · 6月13日

SAIGuard: Communication-State Simulation for Proactive Defense of LLM Multi-Agent Systems

Arxiv

0+阅读 · 6月10日

The Distributed Detectability Band Against Marginal-Preserving Attacks

Arxiv

0+阅读 · 6月9日

SHIELD-IDS: Structurally Heterogeneous Ensemble with Integrated Layered Defense for Intrusion Detection Systems

Arxiv

0+阅读 · 6月5日

TRACE: Trajectory Reasoning through Adaptive Cross-Step Evidence Aggregation for LLM Agents

Arxiv

0+阅读 · 6月5日

Toward a Generalized Defense Across Sparse, Continuous, and Structured Parameter Attacks

Arxiv

0+阅读 · 6月3日

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

Arxiv

0+阅读 · 4月26日

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Arxiv

0+阅读 · 4月23日

相关基金

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

多变化环境监测系统的系统诊断结构与高效诊断算法分析与研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

结构监测系统多维传感网络的节点优化及其监管方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员