OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics - 专知论文

会员服务 ·

0

Agent · IDC · 得分 · Pair · Skills ·

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

翻译：暂无翻译

Mingxian Lin,Shengju Qian,Yuqi Liu,Yi-Hua Huang,Yiyu Wang,Wei Huang,Yitang Li,Fan Zhang,Zeyu Hu,Lingting Zhu,Xin Wang,Xiaojuan Qi

Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.

翻译：暂无翻译

0

相关内容

Agent

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

6+阅读 · 6月13日

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

专知会员服务

7+阅读 · 5月6日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

21+阅读 · 2025年8月29日

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

专知会员服务

15+阅读 · 2025年8月5日

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

专知会员服务

7+阅读 · 2025年6月10日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

MiniGPT-4：使用先进的大型语言模型提升 AI 视觉语言理解能力

MiniGPT-4：使用先进的大型语言模型提升 AI 视觉语言理解能力

专知会员服务

42+阅读 · 2023年10月1日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

ICLR 2019计算机视觉、NLP、图模型、对抗学习、表示学习和元学习最新技术分享

ICLR 2019计算机视觉、NLP、图模型、对抗学习、表示学习和元学习最新技术分享

深度学习与NLP

17+阅读 · 2019年6月16日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

泡泡机器人SLAM

29+阅读 · 2019年5月27日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

下载 | 866页《计算机视觉：原理，算法，应用，学习》第五版

下载 | 866页《计算机视觉：原理，算法，应用，学习》第五版

机器学习算法与Python学习

24+阅读 · 2019年1月1日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

338+阅读 · 2017年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

室内VLC系统中的非成像MIMO信道建模及传输技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation

Arxiv

0+阅读 · 6月18日

SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs

Arxiv

0+阅读 · 6月18日

RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

Arxiv

0+阅读 · 6月18日

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding

Arxiv

0+阅读 · 6月18日

Recursive Joint Simulation in Games

Arxiv

0+阅读 · 6月17日

DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners?

Arxiv

0+阅读 · 6月10日

Linear Scaling Video VLMs for Long Video Understanding

Arxiv

0+阅读 · 5月29日

Consistent Opponent Modeling in Imperfect-Information Games

Arxiv

0+阅读 · 5月29日

3D Primitives are a Spatial Language for VLMs

Arxiv

0+阅读 · 5月12日

On games and simulators as a platform for development of artificial intelligence for command and control

On games and simulators as a platform for development of artificial intelligence for command and control

Arxiv

90+阅读 · 2021年10月21日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

5+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

7+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

7+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

9+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

8+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

8+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

9+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

11+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

10+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

10+阅读 · 6月24日

相关VIP内容

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

6+阅读 · 6月13日

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

专知会员服务

7+阅读 · 5月6日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

21+阅读 · 2025年8月29日

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

专知会员服务

15+阅读 · 2025年8月5日

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

专知会员服务

7+阅读 · 2025年6月10日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

MiniGPT-4：使用先进的大型语言模型提升 AI 视觉语言理解能力

MiniGPT-4：使用先进的大型语言模型提升 AI 视觉语言理解能力

专知会员服务

42+阅读 · 2023年10月1日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

ICLR 2019计算机视觉、NLP、图模型、对抗学习、表示学习和元学习最新技术分享

ICLR 2019计算机视觉、NLP、图模型、对抗学习、表示学习和元学习最新技术分享

深度学习与NLP

17+阅读 · 2019年6月16日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

泡泡机器人SLAM

29+阅读 · 2019年5月27日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

下载 | 866页《计算机视觉：原理，算法，应用，学习》第五版

下载 | 866页《计算机视觉：原理，算法，应用，学习》第五版

机器学习算法与Python学习

24+阅读 · 2019年1月1日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation

Arxiv

0+阅读 · 6月18日

SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs

Arxiv

0+阅读 · 6月18日

RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

Arxiv

0+阅读 · 6月18日

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding

Arxiv

0+阅读 · 6月18日

Recursive Joint Simulation in Games

Arxiv

0+阅读 · 6月17日

DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners?

Arxiv

0+阅读 · 6月10日

Linear Scaling Video VLMs for Long Video Understanding

Arxiv

0+阅读 · 5月29日

Consistent Opponent Modeling in Imperfect-Information Games

Arxiv

0+阅读 · 5月29日

3D Primitives are a Spatial Language for VLMs

Arxiv

0+阅读 · 5月12日

On games and simulators as a platform for development of artificial intelligence for command and control

On games and simulators as a platform for development of artificial intelligence for command and control

Arxiv

90+阅读 · 2021年10月21日

相关基金

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

338+阅读 · 2017年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

室内VLC系统中的非成像MIMO信道建模及传输技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员