As large language models (LLMs) continue to improve in reasoning and decision-making, there is a growing need for realistic and interactive environments where their abilities can be rigorously evaluated. We present VirtualEnv, a next-generation simulation platform built on Unreal Engine 5 that enables fine-grained benchmarking of LLMs in embodied and interactive scenarios. VirtualEnv supports rich agent-environment interactions, including object manipulation, navigation, and adaptive multi-agent collaboration, as well as game-inspired mechanics like escape rooms and procedurally generated environments. We provide a user-friendly API built on top of Unreal Engine, allowing researchers to deploy and control LLM-driven agents using natural language instructions. We integrate large-scale LLMs and vision-language models (VLMs), such as GPT-based models, to generate novel environments and structured tasks from multimodal inputs. Our experiments benchmark the performance of several popular LLMs across tasks of increasing complexity, analyzing differences in adaptability, planning, and multi-agent coordination. We also describe our methodology for procedural task generation, task validation, and real-time environment control. VirtualEnv is released as an open-source platform, we aim to advance research at the intersection of AI and gaming, enable standardized evaluation of LLMs in embodied AI settings, and pave the way for future developments in immersive simulations and interactive entertainment.


翻译:随着大语言模型(LLMs)在推理和决策能力上的持续提升,对能够严格评估其能力的逼真且交互式环境的需求日益增长。我们提出了VirtualEnv,一个基于虚幻引擎5构建的新一代仿真平台,能够在具身和交互场景中对LLMs进行细粒度基准测试。VirtualEnv支持丰富的智能体-环境交互,包括物体操控、导航和自适应多智能体协作,以及受游戏启发的机制,如密室逃脱和程序化生成的环境。我们提供了一个构建于虚幻引擎之上的用户友好API,允许研究人员使用自然语言指令部署和控制LLM驱动的智能体。我们集成了大规模LLMs和视觉-语言模型(VLMs),例如基于GPT的模型,以从多模态输入中生成新颖的环境和结构化任务。我们的实验对多个流行LLMs在复杂度递增的任务上的性能进行了基准测试,分析了它们在适应性、规划和多智能体协调方面的差异。我们还描述了程序化任务生成、任务验证和实时环境控制的方法论。VirtualEnv作为开源平台发布,我们旨在推动人工智能与游戏交叉领域的研究,实现LLMs在具身AI场景中的标准化评估,并为沉浸式仿真和交互式娱乐的未来发展铺平道路。

0
下载
关闭预览

相关内容

大语言模型智能体
专知会员服务
98+阅读 · 2024年12月25日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
走向通用虚拟智能体
专知会员服务
76+阅读 · 2023年11月26日
虚拟数字人发展白皮书,37页pdf
专知
10+阅读 · 2022年2月16日
Windows开源无人机仿真工具:AirSim1.0 入门
无人机
27+阅读 · 2019年6月8日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
无人驾驶开源仿真平台整理
智能交通技术
27+阅读 · 2019年5月9日
虚拟kitti数据集
CreateAMind
12+阅读 · 2017年10月14日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
最新内容
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
3+阅读 · 今天8:10
《军用自主人工智能系统的治理与安全》
专知会员服务
3+阅读 · 今天8:02
《系统簇式多域作战规划范畴论框架》
专知会员服务
7+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
3+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
6+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员