Task planning for robotic manipulation with large language models (LLMs) is an emerging area. Prior approaches rely on specialized models, fine tuning, or prompt tuning, and often operate in an open loop manner without robust environmental feedback, making them fragile in dynamic settings.MALLVi present a Multi Agent Large Language and Vision framework that enables closed loop feedback driven robotic manipulation. Given a natural language instruction and an image of the environment, MALLVi generates executable atomic actions for a robot manipulator. After action execution, a Vision Language Model (VLM) evaluates environmental feedback and decides whether to repeat the process or proceed to the next step Rather than using a single model, MALLVi coordinates specialized agents, Decomposer, Localizer, Thinker, and Reflector, to manage perception, localization, reasoning, and high level planning. An optional Descriptor agent provides visual memory of the initial state. The Reflector supports targeted error detection and recovery by reactivating only relevant agents, avoiding full replanning.Experiments in simulation and real world settings show that iterative closed loop multi agent coordination improves generalization and increases success rates in zero shot manipulation tasks.Code available at https://github.com/iman1234ahmadi/MALLVI.


翻译:基于大语言模型(LLM)的机器人操作任务规划是一个新兴领域。现有方法依赖于专用模型、微调或提示调优,且通常以开环方式运行,缺乏鲁棒的环境反馈,导致其在动态环境中表现脆弱。MALLVI提出了一种多智能体大语言与视觉框架,实现了基于闭环反馈驱动的机器人操作。给定自然语言指令和环境图像,MALLVI为机器人操作器生成可执行的原子动作。动作执行后,视觉语言模型(VLM)评估环境反馈,并决定重复该过程或进入下一步。MALLVI并非使用单一模型,而是协调分解器、定位器、思考器与反思器四个专用智能体,分别管理感知、定位、推理与高层规划。可选的描述器智能体提供初始状态的视觉记忆。反思器通过仅重新激活相关智能体来支持针对性错误检测与恢复,避免了完全重新规划。仿真与真实环境实验表明,迭代式闭环多智能体协调提升了零样本操作任务的泛化能力与成功率。代码发布于 https://github.com/iman1234ahmadi/MALLVI。

0
下载
关闭预览

相关内容

多机器人系统的大型语言模型:综述
专知会员服务
33+阅读 · 2025年2月7日
大语言模型智能体
专知会员服务
98+阅读 · 2024年12月25日
大型语言模型与智能机器人集成的综述
专知会员服务
71+阅读 · 2024年4月22日
走向通用虚拟智能体
专知会员服务
76+阅读 · 2023年11月26日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
相关资讯
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员