EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies - 专知论文

会员服务 ·

0

长时程 · 交互 · 语言模型 · 大语言模型 · 片段 ·

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

翻译：EcoGym：评估大语言模型在交互式经济环境中的长时程规划与执行能力

Xavier Hu,Jinxiang Xia,Shengze Xu,Kangqi Song,Yishuo Yuan,Guibin Zhang,Jincheng Ren,Boyu Feng,Li Lu,Tieyong Zeng,Jiaheng Liu,Minghao Liu,Yuchen Elenor Jiang,Wei Wang,He Zhu,Wangchunshu Zhou

from arxiv, work in progress

Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.

翻译：长时程规划被广泛认为是基于大语言模型的自主智能体的核心能力；然而，当前的评估框架普遍存在片段化、领域特定化或未能充分根植于持久经济动态的问题。我们提出了EcoGym，一个用于在交互式经济中进行连续规划与执行决策的通用化基准测试。EcoGym包含三个多样化的环境：自动售货、自由职业和运营，它们通过统一的决策流程实现，具有标准化的接口，并在一个有效无界的时域内（评估时若以365天为循环，则超过1000步）进行有预算约束的行动。EcoGym的评估基于与业务相关的成果（例如，净资产、收入和日活跃用户），旨在衡量在部分可观测性和随机性条件下的长期战略连贯性与鲁棒性。对十一个领先大语言模型的实验揭示了一个系统性的矛盾：没有一个模型能在所有三种场景中都占据主导地位。关键的是，我们发现模型要么在高层战略上表现出显著的次优性，要么在高效行动执行上存在不足。EcoGym作为一个开放、可扩展的测试平台发布，旨在为透明的长时程智能体评估以及在现实经济环境中研究可控性与效用之间的权衡提供支持。

0

相关内容

长时程

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

29+阅读 · 2月27日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

大规模语言模型智能体的终身学习：发展路线图

大规模语言模型智能体的终身学习：发展路线图

专知会员服务

46+阅读 · 2025年1月16日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

54+阅读 · 2025年1月12日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

77+阅读 · 2024年6月15日

大语言模型视角下的智能规划方法综述

大语言模型视角下的智能规划方法综述

专知会员服务

139+阅读 · 2024年4月20日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

专知

36+阅读 · 2022年10月16日

【综述】交通流量预测，附15页论文下载

【综述】交通流量预测，附15页论文下载

专知

23+阅读 · 2020年4月23日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

基于大数据的微观宏观行为综合分析

国家自然科学基金

1+阅读 · 2015年12月31日

能源经济环境集成系统中的多重内生技术演化建模与政策优化设计

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的环境绩效评价理论、方法及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

1+阅读 · 3月2日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月23日

EconEvals: Benchmarks and Litmus Tests for Economic Decision-Making by LLM Agents

Arxiv

0+阅读 · 2月18日

ScholarGym: Benchmarking Large Language Model Capabilities in the Information-Gathering Stage of Deep Research

Arxiv

0+阅读 · 2月17日

ParaCook: On Time-Efficient Planning for Multi-Agent Systems

Arxiv

0+阅读 · 2月15日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月13日

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Arxiv

0+阅读 · 2月11日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月5日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月3日

AnimatedLLM: Explaining LLMs with Interactive Visualizations

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

9+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

3+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

5+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

7+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

9+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

29+阅读 · 2月27日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

大规模语言模型智能体的终身学习：发展路线图

大规模语言模型智能体的终身学习：发展路线图

专知会员服务

46+阅读 · 2025年1月16日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

54+阅读 · 2025年1月12日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

77+阅读 · 2024年6月15日

大语言模型视角下的智能规划方法综述

大语言模型视角下的智能规划方法综述

专知会员服务

139+阅读 · 2024年4月20日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

专知

36+阅读 · 2022年10月16日

【综述】交通流量预测，附15页论文下载

【综述】交通流量预测，附15页论文下载

专知

23+阅读 · 2020年4月23日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

相关论文

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

1+阅读 · 3月2日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月23日

EconEvals: Benchmarks and Litmus Tests for Economic Decision-Making by LLM Agents

Arxiv

0+阅读 · 2月18日

ScholarGym: Benchmarking Large Language Model Capabilities in the Information-Gathering Stage of Deep Research

Arxiv

0+阅读 · 2月17日

ParaCook: On Time-Efficient Planning for Multi-Agent Systems

Arxiv

0+阅读 · 2月15日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月13日

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Arxiv

0+阅读 · 2月11日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月5日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月3日

AnimatedLLM: Explaining LLMs with Interactive Visualizations

Arxiv

0+阅读 · 1月30日

相关基金

基于大数据的微观宏观行为综合分析

国家自然科学基金

1+阅读 · 2015年12月31日

能源经济环境集成系统中的多重内生技术演化建模与政策优化设计

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的环境绩效评价理论、方法及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员