Frontier large language models (LLMs) excel as autonomous agents in many domains, yet they remain untested in complex enterprise systems where hidden workflows create cascading effects across interconnected databases. Existing enterprise benchmarks evaluate surface-level agentic task completion similar to general consumer benchmarks, ignoring true challenges in enterprises, such as limited observability, large database state, and hidden workflows with cascading side effects. We introduce World of Workflows (WoW), a realistic ServiceNow-based environment incorporating 4,000+ business rules and 55 active workflows embedded in the system, alongside WoW-bench, a benchmark of 234 tasks evaluating constrained agentic task completion and enterprise dynamics modeling capabilities. We reveal two major takeaways: (1) Frontier LLMs suffer from dynamics blindness, consistently failing to predict the invisible, cascading side effects of their actions, which leads to silent constraint violations, and (2) reliability in opaque systems requires grounded world modeling, where agents must mentally simulate hidden state transitions to bridge the observability gap when high-fidelity feedback is unavailable. For reliable and useful enterprise agents, WoW motivates a new paradigm to explicitly learn system dynamics. We release our GitHub for setting up and evaluating WoW.


翻译:前沿大型语言模型(LLM)在许多领域作为自主智能体表现出色,但在复杂的企业系统中尚未经过充分测试——这类系统中隐藏的工作流会在相互关联的数据库间引发连锁效应。现有的企业基准测试仅评估类似于通用消费级基准的表面层智能体任务完成情况,忽视了企业环境中的真实挑战,例如有限的可观测性、庞大的数据库状态以及具有连锁副作用的工作流。我们提出了工作流世界(WoW),这是一个基于ServiceNow的真实环境,包含系统中嵌入的4000多条业务规则和55个活跃工作流;同时推出了WoW-bench基准测试,包含234项任务,用于评估受限智能体任务完成能力与企业动态建模能力。我们揭示了两项关键发现:(1)前沿LLM存在动态盲区,始终无法预测其行为引发的不可见连锁副作用,导致隐性约束违规;(2)在不透明系统中实现可靠性需要基于现实的世界建模,当缺乏高保真反馈时,智能体必须在心理层面模拟隐藏的状态转换以弥合可观测性差距。为实现可靠且实用的企业智能体,WoW推动了一种显式学习系统动态的新范式。我们已发布相关GitHub仓库,用于WoW环境的搭建与评估。

0
下载
关闭预览

相关内容

基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员