Simulated environments play an essential role in embodied AI, functionally analogous to test cases in software engineering. However, existing environment generation methods often emphasize visual realism (e.g., object diversity and layout coherence), overlooking a crucial aspect: logical diversity from the testing perspective. This limits the comprehensive evaluation of agent adaptability and planning robustness in distinct simulated environments. To bridge this gap, we propose LogicEnvGen, a novel method driven by Large Language Models (LLMs) that adopts a top-down paradigm to generate logically diverse simulated environments as test cases for agents. Given an agent task, LogicEnvGen first analyzes its execution logic to construct decision-tree-structured behavior plans and then synthesizes a set of logical trajectories. Subsequently, it adopts a heuristic algorithm to refine the trajectory set, reducing redundant simulation. For each logical trajectory, which represents a potential task situation, LogicEnvGen correspondingly instantiates a concrete environment. Notably, it employs constraint solving for physical plausibility. Furthermore, we introduce LogicEnvEval, a novel benchmark comprising four quantitative metrics for environment evaluation. Experimental results verify the lack of logical diversity in baselines and demonstrate that LogicEnvGen achieves 1.04-2.61x greater diversity, significantly improving the performance in revealing agent faults by 4.00%-68.00%.


翻译:模拟环境在具身AI中扮演着至关重要的角色,其功能类似于软件工程中的测试用例。然而,现有的环境生成方法通常强调视觉真实性(例如物体多样性和布局一致性),却忽视了一个关键方面:从测试视角出发的逻辑多样性。这限制了对智能体在不同模拟环境中适应性和规划鲁棒性的全面评估。为弥补这一不足,我们提出了LogicEnvGen,一种由大语言模型驱动的新方法,采用自上而下的范式,为智能体生成逻辑多样化的模拟环境作为测试用例。给定一个智能体任务,LogicEnvGen首先分析其执行逻辑,构建决策树结构的行为计划,进而合成一组逻辑轨迹。随后,它采用启发式算法对轨迹集进行优化,以减少冗余模拟。对于每条代表潜在任务情境的逻辑轨迹,LogicEnvGen相应地实例化一个具体环境。值得注意的是,该方法采用约束求解来确保物理合理性。此外,我们引入了LogicEnvEval,一个包含四个量化评估指标的新型基准。实验结果验证了基线方法在逻辑多样性上的不足,并表明LogicEnvGen实现了1.04-2.61倍的多样性提升,在揭示智能体缺陷方面的性能显著提高了4.00%-68.00%。

0
下载
关闭预览

相关内容

Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 2025年1月26日
对比预训练和多模态生成式人工智能的统计理论
专知会员服务
22+阅读 · 2025年1月12日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员