Embodied AI requires agents to understand goals, plan actions, and execute tasks in simulated environments. We present a comprehensive evaluation of Large Language Models (LLMs) on the VirtualHome benchmark using the Embodied Agent Interface (EAI) framework. We compare two representative 7B-parameter models OPENPANGU-7B and QWEN2.5-7B across four fundamental tasks: Goal Interpretation, Action Sequencing, Subgoal Decomposition, and Transition Modeling. We propose Structured Self-Consistency (SSC), an enhanced decoding strategy that leverages multiple sampling with domain-specific voting mechanisms to improve output quality for structured generation tasks. Experimental results demonstrate that SSC significantly enhances performance, with OPENPANGU-7B excelling at hierarchical planning while QWEN2.5-7B show advantages in action-level tasks. Our analysis reveals complementary strengths across model types, providing insights for future embodied AI system development.


翻译:具身人工智能要求智能体在模拟环境中理解目标、规划动作并执行任务。本研究采用具身智能体接口(EAI)框架,在VirtualHome基准上对大规模语言模型(LLMs)进行了系统性评估。我们比较了两个代表性的70亿参数模型OPENPANGU-7B与QWEN2.5-7B在四项基础任务上的表现:目标解析、动作序列生成、子目标分解和状态转移建模。本文提出结构化自洽性(SSC)解码策略,该策略通过多轮采样结合领域特定投票机制来提升结构化生成任务的输出质量。实验结果表明,SSC能显著提升模型性能:OPENPANGU-7B在层次化规划任务中表现突出,而QWEN2.5-7B在动作级任务中展现优势。我们的分析揭示了不同模型类型的互补特性,为未来具身AI系统开发提供了重要启示。

0
下载
关闭预览

相关内容

面向具身智能的多模态数据存储与检索:综述
专知会员服务
29+阅读 · 2025年8月20日
LLMs与生成式智能体模拟:复杂系统研究的新范式
专知会员服务
27+阅读 · 2025年6月15日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
基于大语言模型的复杂任务自主规划处理框架
专知会员服务
101+阅读 · 2024年4月12日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员