We present TickingCollabBench, a Minecraft-based multi-agent benchmark for a novel class of time-sensitive complementary collaboration tasks. Our benchmark reflects four core characteristics of real-world collaboration: agent heterogeneity, mandatory collaboration, dynamic environments, and strict real-time constraints with failure risks. To enable this, we develop the TickingCollab framework, which supports the generation of diverse dynamic environments and abstracts Minecraft's primitive APIs to enable declarative YAML task specifications for composing these events. Building on this, we design a feasibility-aware automated benchmark generation pipeline, where an LLM drafts structurally diverse task configurations and feasibility verifier filters out invalid ones using approximate constraints. Evaluations demonstrate that lang latency and inherent difficulty of coordinating under partial observability and agent heterogeneity cause LLMs to frequently fail under dynamic environments and fall significantly short of a global-knowledge oracle.


翻译:我们提出了TickingCollabBench,一个基于Minecraft的新型时序互补协作任务多智能体基准测试。该基准测试体现了现实世界协作的四个核心特征:智能体异质性、强制性协作、动态环境以及具有失败风险的严格实时约束。为实现这一目标,我们开发了TickingCollab框架,该框架支持生成多样化的动态环境,并抽象了Minecraft的原始API,使得能够通过声明式YAML任务规范来组合这些事件。在此基础上,我们设计了一个可行性感知的自动化基准测试生成流程,其中大型语言模型(LLM)起草结构多样的任务配置,而可行性验证器则利用近似约束过滤掉无效配置。评估表明,在部分可观测性和智能体异质性条件下,语言延迟与协调的固有难度导致LLM在动态环境中频繁失败,其性能远不及全局知识型先知模型。

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《大规模、动态与分布式多智能体实时系统协调》124页
专知会员服务
46+阅读 · 2025年5月8日
面向兵棋游戏的多层级智能体架构
专知会员服务
40+阅读 · 2025年1月23日
《基于策略的多智能体多团队系统框架》319页
专知会员服务
73+阅读 · 2024年5月1日
多智能体系统带宽分配及预测云控制
专知会员服务
18+阅读 · 2023年7月9日
面向多智能体博弈对抗的对手建模框架
专知会员服务
165+阅读 · 2022年9月28日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员