Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.


翻译:长时程规划被广泛认为是基于大语言模型的自主智能体的核心能力;然而,当前的评估框架普遍存在片段化、领域特定化或未能充分根植于持久经济动态的问题。我们提出了EcoGym,一个用于在交互式经济中进行连续规划与执行决策的通用化基准测试。EcoGym包含三个多样化的环境:自动售货、自由职业和运营,它们通过统一的决策流程实现,具有标准化的接口,并在一个有效无界的时域内(评估时若以365天为循环,则超过1000步)进行有预算约束的行动。EcoGym的评估基于与业务相关的成果(例如,净资产、收入和日活跃用户),旨在衡量在部分可观测性和随机性条件下的长期战略连贯性与鲁棒性。对十一个领先大语言模型的实验揭示了一个系统性的矛盾:没有一个模型能在所有三种场景中都占据主导地位。关键的是,我们发现模型要么在高层战略上表现出显著的次优性,要么在高效行动执行上存在不足。EcoGym作为一个开放、可扩展的测试平台发布,旨在为透明的长时程智能体评估以及在现实经济环境中研究可控性与效用之间的权衡提供支持。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
大规模语言模型在自动规划中的应用综述
专知会员服务
35+阅读 · 2025年2月22日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
44+阅读 · 2025年1月16日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
大语言模型的终身学习综述
专知会员服务
75+阅读 · 2024年6月15日
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
【综述】交通流量预测,附15页论文下载
专知
23+阅读 · 2020年4月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
大规模语言模型在自动规划中的应用综述
专知会员服务
35+阅读 · 2025年2月22日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
44+阅读 · 2025年1月16日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
大语言模型的终身学习综述
专知会员服务
75+阅读 · 2024年6月15日
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员