HERO'S JOURNEY: Testing Complex Rule Induction with Text Games

We introduce HERO'S JOURNEY, a benchmark for rule induction in goal-directed episodic tasks, where agents must infer hidden rules from demonstrations and act on them through multi-step execution. HERO'S JOURNEY covers eight tasks across attribute and procedural induction families, each with four structural rule forms, controllable lexical grounding, and identifiability conditions. Evaluating state-of-the-art LLMs, we find that models show evidence of rule induction, but the ability is limited and uneven across tasks. Meanwhile, process execution adds an execution bottleneck for models, whereas surface semantics has minimal effect. Induction-specific steering methods improve performance on attribute tasks but show no reliable gains on procedural tasks, suggesting the gap in procedural induction remains an open challenge.

翻译：我们提出英雄之旅（HERO'S JOURNEY），这是一个面向目标导向的阶段性任务的规则归纳基准测试，其中智能体需从演示中推断隐藏规则，并通过多步执行对规则进行应用。英雄之旅涵盖属性归纳与过程归纳两大任务族，共包含八项任务，每项任务具有四种结构化规则形式、可控词汇基础与可辨识条件。通过对最先进的大语言模型进行评估，我们发现模型虽展现出一定的规则归纳能力，但这种能力有限且在不同任务间表现不均。同时，过程执行为模型带来执行瓶颈，而表面语义影响甚微。针对归纳的引导方法虽可提升属性任务性能，但在过程任务上未见稳定改进，表明过程归纳的能力缺口仍是一个待解决的开放挑战。

相关内容

MoDELS

关注 45

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

37+阅读 · 3月14日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

《分析与预测陆军战斗体能测试表现：统计与机器学习方法》2025最新137页

专知会员服务

21+阅读 · 2025年10月10日

《英国陆军：1991-2024年作战中的任务式指挥与领导艺术》164页

专知会员服务

27+阅读 · 2025年9月20日