While passive agents merely follow instructions, proactive agents align with higher-level objectives, such as assistance and safety by continuously monitoring the environment to determine when and how to act. However, developing proactive agents is hindered by the lack of specialized resources. To address this, we introduce ProAct-75, a benchmark designed to train and evaluate proactive agents across diverse domains, including assistance, maintenance, and safety monitoring. Spanning 75 tasks, our dataset features 91,581 step-level annotations enriched with explicit task graphs. These graphs encode step dependencies and parallel execution possibilities, providing the structural grounding necessary for complex decision-making. Building on this benchmark, we propose ProAct-Helper, a reference baseline powered by a Multimodal Large Language Model (MLLM) that grounds decision-making in state detection, and leveraging task graphs to enable entropy-driven heuristic search for action selection, allowing agents to execute parallel threads independently rather than mirroring the human's next step. Extensive experiments demonstrate that ProAct-Helper outperforms strong closed-source models, improving trigger detection mF1 by 6.21%, saving 0.25 more steps in online one-step decision, and increasing the rate of parallel actions by 15.58%.


翻译:被动智能体仅遵循指令执行任务,而主动智能体则通过持续监测环境以判断行动时机与方式,从而与更高层次的目标(如辅助与安全)保持一致。然而,由于缺乏专门资源,主动智能体的开发受到阻碍。为此,我们提出了ProAct-75基准测试,旨在跨辅助、维护与安全监控等多个领域训练和评估主动智能体。该数据集涵盖75项任务,包含91,581个步骤级标注,并辅以显式的任务图结构。这些任务图编码了步骤间的依赖关系与并行执行可能性,为复杂决策提供了必要的结构化基础。基于此基准,我们进一步提出ProAct-Helper——一个由多模态大语言模型驱动的参考基线。该模型将决策过程锚定于状态检测,并利用任务图实现基于熵驱动的启发式搜索进行动作选择,使智能体能够独立执行并行任务线程,而非简单模仿人类的下一步操作。大量实验表明,ProAct-Helper在多项指标上优于强闭源模型:触发检测的宏观F1值提升6.21%,在线单步决策中平均节省0.25个步骤,并行动作执行率提高15.58%。

0
下载
关闭预览

相关内容

多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
多模态预训练模型简述
专知会员服务
114+阅读 · 2021年4月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
多模态预训练模型简述
专知会员服务
114+阅读 · 2021年4月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员