复旦大学研究人员开发了Task-to-Quiz (T2Q),这是一个自动化的范式,用于评估大型语言模型(LLM)代理的环境理解能力,并将其与任务完成指标分开。该框架揭示了任务成功并不能可靠地反映代理的扎实世界模型,指出了现有记忆系统的不足,并强调了主动探索不足是形成全面环境知识的一个主要局限。
引言 大型语言模型(LLM)代理在从网页导航到软件工程等多个领域都展现出了令人印象深刻的能力。然而,一个基本问题仍然存在:这些代理是否真正理解它们的环境,还是它们仅仅擅长特定任务行为而没有发展出强大的世界模型?本文介绍了任务到测验(Task-to-Quiz,T2Q),这是一种将“做”与“知”分离的范式,旨在评估LLM代理是否真正理解其操作环境,而不仅仅是完成任务。 图1:传统基于轨迹的评估(衡量任务成功)与提出的基于环境的评估(通过针对环境的特定问题衡量理解)之间的比较。 当前对LLM代理的评估方法主要侧重于基于轨迹的指标,衡量代理是否成功完成任务,而不是评估它们对环境的潜在理解。这种方法造成了一个显著的盲点:代理可能通过特定任务的启发式方法取得成功,而没有发展出关于其世界的、可迁移的知识。
T2Q范式通过一个两阶段过程解决了这个评估差距,该过程将任务执行与环境理解解耦。这种方法利用基于文本的冒险游戏,其中环境元数据是明确已知的,从而能够进行精确和自动化的评估。 图2:T2Q范式概述,展示了代理如何在受控环境中执行面向覆盖的任务,然后回答关于它们应该已经观察到的环境事实的问题。
该方法始于使用TextWorld风格游戏进行可控环境生成。每个环境都包括:
为确保全面探索,作者将任务生成表述为加权集合覆盖问题。该过程包括:
这种方法生成“面向覆盖的任务”,鼓励代理探索环境的不同方面,而不是专注于单一目标。
系统自动将环境事实转换为五类问答对:
至关重要的是,每个问题都包含先决条件检查点——代理合理地知道答案所需的最小交互证据。系统生成动态真实性:如果代理没有满足先决条件(例如,从未访问过某个房间),那么对于该轨迹,该问题就变为“无法回答”,从而确保公平评估。
图3:T2Q两阶段评估过程。第一阶段涉及任务执行和观察记录。第二阶段将环境事实转换为测验问题,并根据先决条件满足情况动态分配真实值。 作者构建了T2QBench,包括:
30个按难度分层的程序生成环境
224个旨在最大化环境交互的覆盖导向任务
1,967个基于环境的问答对,带有动态真实值分配
评估通过两个不同的阶段进行: 第一阶段:任务成功率 (TSR) - 智能体执行覆盖导向任务,成功率以完成任务的比例衡量。此阶段生成交互轨迹并更新智能体记忆。 第二阶段:环境理解得分 (EUS) - 根据累积的记忆或交互历史,智能体回答测验问题。EUS 计算为正确答案与可回答问题数的比例。
使用专有模型 (GPT-5.1) 和开源模型 (DeepSeekV3.2, GLM-4.6, Qwen3-32B) 以及各种记忆系统进行的广泛实验揭示了三个关键见解:
图4:不同难度级别下的任务成功率 (TSR) 和环境理解得分 (EUS),展示了随着复杂性增加它们的分歧。 数据显示,任务成功率 (TSR) 和环境理解得分 (EUS) 遵循不同的轨迹。尽管TSR随着难度增加而显著下降(GLM-4.6在从简单到困难环境的任务中从100%降至43%),EUS却保持相对稳定(同一模型从58%降至51%)。这证实了智能体可以在不形成全面环境知识的情况下完成任务,反之,即使任务失败也可能具备环境理解能力。
图5:不同模型和记忆系统下的任务成功率与环境理解得分之间的关系。点表示单独的配置,显示任务表现与环境知识之间没有明确关联。 令人惊讶的是,简单的上下文基线通常与复杂记忆系统(Mem0、LangMem、A-MEM)的表现持平或超越。这表明当前的记忆架构在记忆构建和检索过程中可能会丢失关键的细粒度证据,或者未能将观察结果提炼成结构化的环境抽象。
图6:不同模型在不同问题类型上的环境理解得分细分,显示需要主动交互的“属性”问题表现持续不佳。 对不同问题类型的分析揭示了系统性模式:
所有模型在“属性”问题上持续的低性能表明,代理优化的是高效的、目标导向的行为,而非全面的探索。它们无法主动发现隐藏的环境细节,这代表着世界模型形成中的一个根本性局限。
图7:EUS性能分解,显示了在不同问题类型和模型中,可回答问题与不可回答问题的正确答案比例。 T2Q范式揭示了当前LLM代理能力中的关键差距: 架构启示:当前的记忆系统需要进行根本性重新设计,以更好地捕获和维护细粒度的环境信息。简单上下文学习常常优于复杂记忆架构的发现表明,现有方法可能不利于世界模型的构建。 探索策略:在属性问题上的糟糕表现凸显了好奇心驱动的探索机制的必要性。未来的代理应该平衡目标导向行为与系统的环境调查,以构建全面的世界模型。 评估方法论:TSR和EUS之间的差异表明,仅靠任务成功指标不足以评估代理的智能。T2Q范式提供了一种更具诊断性的方法,可以指导代理架构和训练中的有针对性改进。 泛化研究:通过明确区分“做”与“知”,这项工作为开发具有更强大泛化能力的代理奠定了基础。理解环境结构,而不仅仅是任务完成启发式,对于在多样化和不断变化的环境中部署至关重要。 这项研究将T2Q确立为评估框架和诊断工具,为AI社区提供了一种理解和改进LLM代理世界建模能力的原则性方法。尽管当前的实验主要集中在TextWorld环境中,但该范式的原则可扩展到更复杂的领域,其中环境理解对于鲁棒的自主操作至关重要。