Cost-Aware Diffusion Active Search - 专知论文

会员服务 ·

0

搜索 · 算法 · 智能体 · 构建 · 序列 ·

Cost-Aware Diffusion Active Search

翻译：成本感知扩散主动搜索

Arundhati Banerjee,Jeff Schneider

from arxiv, In submission

Active search for recovering objects of interest through online, adaptive decision making with autonomous agents requires trading off exploration of unknown environments with exploitation of prior observations in the search space. Prior work has proposed information gain and Thompson sampling based myopic, greedy approaches for agents to actively decide query or search locations when the number of targets is unknown. Decision making algorithms in such partially observable environments have also shown that agents capable of lookahead over a finite horizon outperform myopic policies for active search. Unfortunately, lookahead algorithms typically rely on building a computationally expensive search tree that is simulated and updated based on the agent's observations and a model of the environment dynamics. Instead, in this work, we leverage the sequence modeling abilities of diffusion models to sample lookahead action sequences that balance the exploration-exploitation trade-off for active search without building an exhaustive search tree. We identify the optimism bias in prior diffusion based reinforcement learning approaches when applied to the active search setting and propose mitigating solutions for efficient cost-aware decision making with both single and multi-agent teams. Our proposed algorithm outperforms standard baselines in offline reinforcement learning in terms of full recovery rate and is computationally more efficient than tree search in cost-aware active decision making.

翻译：通过自主智能体进行在线自适应决策以恢复感兴趣对象的主动搜索，需要在搜索空间中权衡未知环境的探索与已有观测的利用。先前研究提出了基于信息增益和汤普森采样的短视贪婪方法，使智能体在目标数量未知时能主动决定查询或搜索位置。在此类部分可观测环境中的决策算法还表明，具备有限前瞻能力的智能体在主动搜索中表现优于短视策略。然而，前瞻算法通常依赖于构建计算成本高昂的搜索树，该树需根据智能体观测和环境动态模型进行模拟更新。本研究转而利用扩散模型的序列建模能力，通过采样前瞻动作序列来平衡主动搜索中的探索-利用权衡，而无需构建穷举式搜索树。我们发现了先前基于扩散的强化学习方法在主动搜索场景中存在的乐观偏差，并提出了适用于单智能体与多智能体团队的高效成本感知决策缓解方案。所提算法在离线强化学习中，其完全恢复率优于标准基线方法，且在成本感知主动决策中的计算效率高于树搜索算法。

0

相关内容

互联网

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

15+阅读 · 4月16日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

《面向自主对接机动的机器视觉感知技术研究》最新150页

《面向自主对接机动的机器视觉感知技术研究》最新150页

专知会员服务

21+阅读 · 2025年9月15日

【CMU博士论文】基于学习的方法应对多智能体主动搜索中的实际挑战

【CMU博士论文】基于学习的方法应对多智能体主动搜索中的实际挑战

专知会员服务

20+阅读 · 2025年5月25日

《移动传感器平台近距离探测静态目标的人类视觉搜索性能》最新213页论文

《移动传感器平台近距离探测静态目标的人类视觉搜索性能》最新213页论文

专知会员服务

29+阅读 · 2024年10月25日

《扩展态势理论：探索人类-智能自主系统中的共享感知》

《扩展态势理论：探索人类-智能自主系统中的共享感知》

专知会员服务

65+阅读 · 2024年6月11日

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

237页ppt《主动学习》最新概述，Stefano Teso讲授!

237页ppt《主动学习》最新概述，Stefano Teso讲授!

专知会员服务

66+阅读 · 2022年8月28日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

深度学习搜索，Exploring Deep Learning for Search

深度学习搜索，Exploring Deep Learning for Search

专知会员服务

61+阅读 · 2020年5月9日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

38+阅读 · 2023年4月11日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

机器学习研究会

12+阅读 · 2017年11月3日

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

Survival of the Cheapest: Cost-Aware Hardware Adaptation for Adversarial Robustness

Arxiv

0+阅读 · 4月22日

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Arxiv

0+阅读 · 4月14日

Apple: Toward General Active Perception via Reinforcement Learning

Arxiv

0+阅读 · 4月8日

Active Statistical Inference

Arxiv

0+阅读 · 4月7日

Integrating Deep RL and Bayesian Inference for ObjectNav in Mobile Robotics

Arxiv

0+阅读 · 3月26日

Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration

Arxiv

0+阅读 · 3月23日

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Arxiv

0+阅读 · 3月18日

Perception-Aware Autonomous Exploration in Feature-Limited Environments

Arxiv

0+阅读 · 3月16日

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Arxiv

0+阅读 · 3月5日

AgentIR: Reasoning-Aware Retrival for Deep Research Agents

Arxiv

0+阅读 · 3月4日

VIP会员

文章信息

相关主题

最新内容

Nature三连发AI自主科学发现论文

Nature三连发AI自主科学发现论文

专知会员服务

0+阅读 · 今天14:19

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

0+阅读 · 今天14:13

安杜里尔与人工智能驱动防务的崛起

安杜里尔与人工智能驱动防务的崛起

专知会员服务

10+阅读 · 今天8:08

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

专知会员服务

12+阅读 · 今天8:05

《Palantir对联合全域指挥控制（JADC2）的支持能力》

《Palantir对联合全域指挥控制（JADC2）的支持能力》

专知会员服务

11+阅读 · 今天8:03

《用于美海军作战力量战略部署与分散（SLD）的大规模人工智能（AI）》简报

《用于美海军作战力量战略部署与分散（SLD）的大规模人工智能（AI）》简报

专知会员服务

9+阅读 · 今天7:57

《数字景观军事演示：AI决策系统的虚拟呈现——Palantir TITAN和 Anduril Lattice系统分析》

《数字景观军事演示：AI决策系统的虚拟呈现——Palantir TITAN和 Anduril Lattice系统分析》

专知会员服务

12+阅读 · 今天7:50

《Palantir平台：FOUNDRY与AIP服务定义文档》

《Palantir平台：FOUNDRY与AIP服务定义文档》

专知会员服务

9+阅读 · 今天7:45

2025年科学计算行业发展研究报告

2025年科学计算行业发展研究报告

专知会员服务

7+阅读 · 5月20日

【ICML 2026】从看见到思考：解耦感知与推理，改进视觉语言模型后训练

【ICML 2026】从看见到思考：解耦感知与推理，改进视觉语言模型后训练

专知会员服务

5+阅读 · 5月20日

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

专知会员服务

7+阅读 · 5月20日

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

10+阅读 · 5月20日

《零和搜索与规避博弈在反潜战中的应用》80页报告

《零和搜索与规避博弈在反潜战中的应用》80页报告

专知会员服务

10+阅读 · 5月20日

《特种部队山地作战：一项战略要务》230页报告

《特种部队山地作战：一项战略要务》230页报告

专知会员服务

6+阅读 · 5月20日

《利用云计算推进美国国家安全：强化情报、网络韧性与国土防御战略》

《利用云计算推进美国国家安全：强化情报、网络韧性与国土防御战略》

专知会员服务

5+阅读 · 5月20日

相关VIP内容

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

15+阅读 · 4月16日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

《面向自主对接机动的机器视觉感知技术研究》最新150页

《面向自主对接机动的机器视觉感知技术研究》最新150页

专知会员服务

21+阅读 · 2025年9月15日

【CMU博士论文】基于学习的方法应对多智能体主动搜索中的实际挑战

【CMU博士论文】基于学习的方法应对多智能体主动搜索中的实际挑战

专知会员服务

20+阅读 · 2025年5月25日

《移动传感器平台近距离探测静态目标的人类视觉搜索性能》最新213页论文

《移动传感器平台近距离探测静态目标的人类视觉搜索性能》最新213页论文

专知会员服务

29+阅读 · 2024年10月25日

《扩展态势理论：探索人类-智能自主系统中的共享感知》

《扩展态势理论：探索人类-智能自主系统中的共享感知》

专知会员服务

65+阅读 · 2024年6月11日

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

237页ppt《主动学习》最新概述，Stefano Teso讲授!

237页ppt《主动学习》最新概述，Stefano Teso讲授!

专知会员服务

66+阅读 · 2022年8月28日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

深度学习搜索，Exploring Deep Learning for Search

深度学习搜索，Exploring Deep Learning for Search

专知会员服务

61+阅读 · 2020年5月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【综述】大型音频语言模型综述：泛化、可信与未来展望

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

Nature三连发AI自主科学发现论文

安杜里尔与人工智能驱动防务的崛起

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

38+阅读 · 2023年4月11日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

机器学习研究会

12+阅读 · 2017年11月3日

相关论文

Survival of the Cheapest: Cost-Aware Hardware Adaptation for Adversarial Robustness

Arxiv

0+阅读 · 4月22日

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

Arxiv

0+阅读 · 4月14日

Apple: Toward General Active Perception via Reinforcement Learning

Arxiv

0+阅读 · 4月8日

Active Statistical Inference

Arxiv

0+阅读 · 4月7日

Integrating Deep RL and Bayesian Inference for ObjectNav in Mobile Robotics

Arxiv

0+阅读 · 3月26日

Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration

Arxiv

0+阅读 · 3月23日

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Arxiv

0+阅读 · 3月18日

Perception-Aware Autonomous Exploration in Feature-Limited Environments

Arxiv

0+阅读 · 3月16日

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Arxiv

0+阅读 · 3月5日

AgentIR: Reasoning-Aware Retrival for Deep Research Agents

Arxiv

0+阅读 · 3月4日

相关基金

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员