TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents - 专知论文

会员服务 ·

0

监督 · 异常检测 · 构建 · 智能体 · 数据集 ·

TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents

翻译：TrajAD：面向可信LLM智能体的轨迹异常检测

Yibing Liu,Chong Zhang,Zhongyi Han,Hansong Liu,Yong Wang,Yang Yu,Xiaoyan Wang,Yilong Yin

from arxiv, 9 pages, 5 figures, 1 table

We address the problem of runtime trajectory anomaly detection, a critical capability for enabling trustworthy LLM agents. Current safety measures predominantly focus on static input/output filtering. However, we argue that ensuring LLM agents reliability requires auditing the intermediate execution process. In this work, we formulate the task of Trajectory Anomaly Detection. The goal is not merely detection, but precise error localization. This capability is essential for enabling efficient rollback-and-retry. To achieve this, we construct TrajBench, a dataset synthesized via a perturb-and-complete strategy to cover diverse procedural anomalies. Using this benchmark, we investigate the capability of models in process supervision. We observe that general-purpose LLMs, even with zero-shot prompting, struggle to identify and localize these anomalies. This reveals that generalized capabilities do not automatically translate to process reliability. To address this, we propose TrajAD, a specialized verifier trained with fine-grained process supervision. Our approach outperforms baselines, demonstrating that specialized supervision is essential for building trustworthy agents.

翻译：本文研究运行时轨迹异常检测问题，这是实现可信LLM智能体的关键能力。当前的安全措施主要集中于静态输入/输出过滤，但我们认为确保LLM智能体可靠性需要对其中间执行过程进行审计。本工作系统阐述了轨迹异常检测任务，其目标不仅在于异常检测，更在于实现精确的错误定位，该能力对于实现高效的回滚重试机制至关重要。为实现这一目标，我们通过扰动补全策略构建了TrajBench数据集，该数据集覆盖了多样化的程序异常类型。基于此基准测试，我们深入探究了模型在过程监督方面的能力。研究发现，通用型LLM即使在零样本提示条件下，仍难以有效识别和定位此类异常，这表明通用能力并不能自动转化为过程可靠性。为此，我们提出TrajAD——一种通过细粒度过程监督训练的专用验证器。该方法在多项基线测试中表现优异，证明专业化监督对于构建可信智能体具有不可或缺的作用。

0

相关内容

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

AgentOps综述：分类、挑战与未来方向

AgentOps综述：分类、挑战与未来方向

专知会员服务

40+阅读 · 2025年8月6日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

基于图注意力机制和Transformer的异常检测

基于图注意力机制和Transformer的异常检测

专知会员服务

62+阅读 · 2022年5月16日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

219+阅读 · 2019年10月18日

莫纳什大学最新「深度学习时间序列异常检测」综述

莫纳什大学最新「深度学习时间序列异常检测」综述

专知

11+阅读 · 2022年11月11日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

异常检测论文大列表：方法、应用、综述

异常检测论文大列表：方法、应用、综述

专知

126+阅读 · 2019年7月15日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

无监督学习：决策树AI异常检测

无监督学习：决策树AI异常检测

AI前线

15+阅读 · 2018年1月14日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

微弱信号的混沌同步检测机理及地铁车辆轮对故障的早期诊断

国家自然科学基金

0+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器视觉检测的铁路轨道表面缺陷快速识别与分类方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

Arxiv

0+阅读 · 3月12日

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Arxiv

0+阅读 · 3月11日

Arbiter: Detecting Interference in LLM Agent System Prompts

Arxiv

0+阅读 · 3月9日

Constitutional Black-Box Monitoring for Scheming in LLM Agents

Arxiv

0+阅读 · 2月28日

Managing Uncertainty in LLM-based Multi-Agent System Operation

Arxiv

0+阅读 · 2月26日

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Arxiv

0+阅读 · 2月26日

MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月23日

TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code

Arxiv

0+阅读 · 2月6日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

1+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

AgentOps综述：分类、挑战与未来方向

AgentOps综述：分类、挑战与未来方向

专知会员服务

40+阅读 · 2025年8月6日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

基于图注意力机制和Transformer的异常检测

基于图注意力机制和Transformer的异常检测

专知会员服务

62+阅读 · 2022年5月16日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

219+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

莫纳什大学最新「深度学习时间序列异常检测」综述

莫纳什大学最新「深度学习时间序列异常检测」综述

专知

11+阅读 · 2022年11月11日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

异常检测论文大列表：方法、应用、综述

异常检测论文大列表：方法、应用、综述

专知

126+阅读 · 2019年7月15日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

无监督学习：决策树AI异常检测

无监督学习：决策树AI异常检测

AI前线

15+阅读 · 2018年1月14日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

相关论文

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

Arxiv

0+阅读 · 3月12日

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Arxiv

0+阅读 · 3月11日

Arbiter: Detecting Interference in LLM Agent System Prompts

Arxiv

0+阅读 · 3月9日

Constitutional Black-Box Monitoring for Scheming in LLM Agents

Arxiv

0+阅读 · 2月28日

Managing Uncertainty in LLM-based Multi-Agent System Operation

Arxiv

0+阅读 · 2月26日

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Arxiv

0+阅读 · 2月26日

MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月23日

TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code

Arxiv

0+阅读 · 2月6日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

Arxiv

0+阅读 · 2月2日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

微弱信号的混沌同步检测机理及地铁车辆轮对故障的早期诊断

国家自然科学基金

0+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器视觉检测的铁路轨道表面缺陷快速识别与分类方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员