Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.


翻译:长时程规划被广泛认为是基于大语言模型的自主智能体的核心能力;然而,当前的评估框架普遍存在局限性,主要表现为任务多为片段式、领域特定,或未能充分根植于持续的经济动态之中。我们提出了EcoGym,一个用于在交互式经济中进行连续规划与执行决策的通用化基准。EcoGym包含三个多样化环境:自动售货、自由职业和运营,它们通过统一的决策流程和标准化接口实现,并在一个有效无界的时域内(若以365天为评估循环,则超过1000步)提供有预算约束的行动。EcoGym的评估基于与业务相关的成果(例如,净资产、收入和日活跃用户数),旨在考察智能体在部分可观测性和随机性下的长期战略连贯性与鲁棒性。对十一个领先大语言模型的实验揭示了一个系统性的矛盾:没有一个模型能在所有三种场景中均占主导地位。关键的是,我们发现模型要么在高层战略上,要么在高效行动执行上表现出显著的次优性。EcoGym已作为开放、可扩展的测试平台发布,用于透明化的长时程智能体评估,以及在现实经济环境中研究可控性与效用之间的权衡。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
大规模语言模型在自动规划中的应用综述
专知会员服务
35+阅读 · 2025年2月22日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
44+阅读 · 2025年1月16日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
大语言模型的终身学习综述
专知会员服务
75+阅读 · 2024年6月15日
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
数据驱动的态势认知技术及发展思考
专知
18+阅读 · 2022年7月12日
【综述】交通流量预测,附15页论文下载
专知
23+阅读 · 2020年4月23日
智慧交通大数据可视化分析决策平台
智能交通技术
10+阅读 · 2019年4月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
大规模语言模型在自动规划中的应用综述
专知会员服务
35+阅读 · 2025年2月22日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
44+阅读 · 2025年1月16日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
大语言模型的终身学习综述
专知会员服务
75+阅读 · 2024年6月15日
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员