EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies - 专知论文

会员服务 ·

0

长时程 · 交互 · 语言模型 · 智能体 · 大语言模型 ·

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

翻译：EcoGym：评估大语言模型在交互式经济中的长时程规划与执行能力

Xavier Hu,Jinxiang Xia,Shengze Xu,Kangqi Song,Yishuo Yuan,Guibin Zhang,JinCheng Ren,Boyu Feng,Li Lu,Tieyong Zeng,Jiaheng Liu,Minghao Liu,He Zhu,Yuchen Eleanor Jiang,Wei Wang,Wangchunshu Zhou

from arxiv, work in progress

Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.

翻译：长时程规划被广泛认为是基于大语言模型的自主智能体的核心能力；然而，当前的评估框架普遍存在局限性，主要表现为任务多为片段式、领域特定，或未能充分根植于持续的经济动态之中。我们提出了EcoGym，一个用于在交互式经济中进行连续规划与执行决策的通用化基准。EcoGym包含三个多样化环境：自动售货、自由职业和运营，它们通过统一的决策流程和标准化接口实现，并在一个有效无界的时域内（若以365天为评估循环，则超过1000步）提供有预算约束的行动。EcoGym的评估基于与业务相关的成果（例如，净资产、收入和日活跃用户数），旨在考察智能体在部分可观测性和随机性下的长期战略连贯性与鲁棒性。对十一个领先大语言模型的实验揭示了一个系统性的矛盾：没有一个模型能在所有三种场景中均占主导地位。关键的是，我们发现模型要么在高层战略上，要么在高效行动执行上表现出显著的次优性。EcoGym已作为开放、可扩展的测试平台发布，用于透明化的长时程智能体评估，以及在现实经济环境中研究可控性与效用之间的权衡。

0

相关内容

长时程

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

52+阅读 · 2025年1月12日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

大语言模型视角下的智能规划方法综述

大语言模型视角下的智能规划方法综述

专知会员服务

137+阅读 · 2024年4月20日

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

专知会员服务

46+阅读 · 2023年9月22日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

专知

36+阅读 · 2022年10月16日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知

19+阅读 · 2022年7月12日

【综述】交通流量预测，附15页论文下载

【综述】交通流量预测，附15页论文下载

专知

23+阅读 · 2020年4月23日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

智慧交通大数据可视化分析决策平台

智慧交通大数据可视化分析决策平台

智能交通技术

10+阅读 · 2019年4月15日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

基于大数据的微观宏观行为综合分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

交通网络、城市聚集对城市群经济增长的作用机制研究与模型化解释：以长三角城市群为例

国家自然科学基金

1+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的环境绩效评价理论、方法及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

1+阅读 · 3月2日

SweetSpot: An Analytical Model for Predicting Energy Efficiency of LLM Inference

Arxiv

0+阅读 · 2月23日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月23日

EconEvals: Benchmarks and Litmus Tests for Economic Decision-Making by LLM Agents

Arxiv

0+阅读 · 2月18日

ScholarGym: Benchmarking Large Language Model Capabilities in the Information-Gathering Stage of Deep Research

Arxiv

0+阅读 · 2月17日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月13日

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Arxiv

0+阅读 · 2月10日

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

Arxiv

0+阅读 · 2月5日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月5日

AnimatedLLM: Explaining LLMs with Interactive Visualizations

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

1+阅读 · 今天15:19

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

1+阅读 · 今天15:17

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

3+阅读 · 今天13:58

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

3+阅读 · 今天13:36

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

3+阅读 · 今天13:33

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

10+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

9+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

10+阅读 · 6月13日

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

8+阅读 · 6月12日

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

22+阅读 · 6月12日

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

7+阅读 · 6月12日

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

12+阅读 · 6月12日

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

9+阅读 · 6月12日

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

13+阅读 · 6月12日

相关VIP内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

52+阅读 · 2025年1月12日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

大语言模型视角下的智能规划方法综述

大语言模型视角下的智能规划方法综述

专知会员服务

137+阅读 · 2024年4月20日

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

专知会员服务

46+阅读 · 2023年9月22日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

俄乌战场地面机器人如何改写战争规则

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

专知

36+阅读 · 2022年10月16日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知

19+阅读 · 2022年7月12日

【综述】交通流量预测，附15页论文下载

【综述】交通流量预测，附15页论文下载

专知

23+阅读 · 2020年4月23日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

智慧交通大数据可视化分析决策平台

智慧交通大数据可视化分析决策平台

智能交通技术

10+阅读 · 2019年4月15日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

相关论文

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

1+阅读 · 3月2日

SweetSpot: An Analytical Model for Predicting Energy Efficiency of LLM Inference

Arxiv

0+阅读 · 2月23日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月23日

EconEvals: Benchmarks and Litmus Tests for Economic Decision-Making by LLM Agents

Arxiv

0+阅读 · 2月18日

ScholarGym: Benchmarking Large Language Model Capabilities in the Information-Gathering Stage of Deep Research

Arxiv

0+阅读 · 2月17日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月13日

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Arxiv

0+阅读 · 2月10日

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

Arxiv

0+阅读 · 2月5日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月5日

AnimatedLLM: Explaining LLMs with Interactive Visualizations

Arxiv

0+阅读 · 1月30日

相关基金

基于大数据的微观宏观行为综合分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

交通网络、城市聚集对城市群经济增长的作用机制研究与模型化解释：以长三角城市群为例

国家自然科学基金

1+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的环境绩效评价理论、方法及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员