Long-horizon workflow agents that operate effectively over extended periods are essential for truly autonomous systems. Their reliable execution critically depends on the ability to reason through ambiguous situations in which clarification seeking is necessary to ensure correct task execution. However, progress is limited by the lack of scalable, task-agnostic frameworks for systematically curating and measuring the impact of ambiguity across custom workflows. We address this gap by introducing LHAW (Long-Horizon Augmented Workflows), a modular, dataset-agnostic synthetic pipeline that transforms any well-specified task into controllable underspecified variants by systematically removing information across four dimensions - Goals, Constraints, Inputs, and Context - at configurable severity levels. Unlike approaches that rely on LLM predictions of ambiguity, LHAW validates variants through empirical agent trials, classifying them as outcome-critical, divergent, or benign based on observed terminal state divergence. We release 285 task variants from TheAgentCompany, SWE-Bench Pro and MCP-Atlas according to our taxonomy alongside formal analysis measuring how current agents detect, reason about, and resolve underspecification across ambiguous settings. LHAW provides the first systematic framework for cost-sensitive evaluation of agent clarification behavior in long-horizon settings, enabling development of reliable autonomous systems.


翻译:摘要:在长时间跨度内有效运行的长时域工作流智能体是实现真正自主系统的关键。其可靠执行在很大程度上取决于对歧义情境进行推理的能力——当需要澄清时,必须确保任务执行的正确性。然而,由于缺乏可扩展且任务无关的系统性框架来对自定义工作流中的歧义性进行整理和量化评估,相关研究的进展受到限制。为填补这一空白,我们提出LHAW(长时域增强工作流)——一种模块化、数据集无关的合成数据生成流程。该流程通过沿目标、约束条件、输入和环境四个维度,以可配置的严重程度系统地移除信息,从而将任意良定任务转化为可控欠指定变体。与依赖大语言模型预测歧义性的方法不同,LHAW通过实证智能体试验验证变体效果,根据观测到的终端状态分岔将其分类为关键性结果差异、发散性结果差异或良性差异。我们基于TheAgentCompany、SWE-Bench Pro和MCP-Atlas基准按分类体系发布了285个任务变体,并配套分析了当前智能体在不同歧义设置下检测、推理和解决欠指定问题的能力。LHAW首次提供了系统性框架用于长时域场景下智能体澄清行为的成本敏感评估,为开发可靠的自主系统奠定了基础。

0
下载
关闭预览

相关内容

《多智能体系统中的目标管理》莱特州立大学博士论文
专知会员服务
69+阅读 · 2022年11月25日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员