While passive agents merely follow instructions, proactive agents align with higher-level objectives, such as assistance and safety by continuously monitoring the environment to determine when and how to act. However, developing proactive agents is hindered by the lack of specialized resources. To address this, we introduce ProAct-75, a benchmark designed to train and evaluate proactive agents across diverse domains, including assistance, maintenance, and safety monitoring. Spanning 75 tasks, our dataset features 91,581 step-level annotations enriched with explicit task graphs. These graphs encode step dependencies and parallel execution possibilities, providing the structural grounding necessary for complex decision-making. Building on this benchmark, we propose ProAct-Helper, a reference baseline powered by a Multimodal Large Language Model (MLLM) that grounds decision-making in state detection, and leveraging task graphs to enable entropy-driven heuristic search for action selection, allowing agents to execute parallel threads independently rather than mirroring the human's next step. Extensive experiments demonstrate that ProAct-Helper outperforms strong closed-source models, improving trigger detection mF1 by 6.21%, saving 0.25 more steps in online one-step decision, and increasing the rate of parallel actions by 15.58%.


翻译:被动智能体仅遵循指令执行任务,而主动智能体则通过持续监测环境以判断行动时机与方式,从而与更高层次的目标(如辅助与安全)保持一致。然而,由于缺乏专门资源,主动智能体的开发受到阻碍。为此,我们提出了ProAct-75基准测试,旨在跨辅助、维护与安全监控等多个领域训练和评估主动智能体。该数据集涵盖75项任务,包含91,581个步骤级标注,并辅以显式的任务图结构。这些任务图编码了步骤间的依赖关系与并行执行可能性,为复杂决策提供了必要的结构化基础。基于此基准,我们进一步提出ProAct-Helper——一个由多模态大语言模型驱动的参考基线。该模型将决策过程锚定于状态检测,并利用任务图实现基于熵驱动的启发式搜索进行动作选择,使智能体能够独立执行并行任务线程,而非简单模仿人类的下一步操作。大量实验表明,ProAct-Helper在多项指标上优于强闭源模型:触发检测的宏观F1值提升6.21%,在线单步决策中平均节省0.25个步骤,并行动作执行率提高15.58%。

0
下载
关闭预览

相关内容

通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
5+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
5+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
15+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员