Despite the strong performance achieved by reinforcement learning-trained information-seeking agents, learning in open-ended web environments remains severely constrained by low signal-to-noise feedback. Text-based parsers often discard layout semantics and introduce unstructured noise, while long-horizon training typically relies on sparse outcome rewards that obscure which retrieval actions actually matter. We propose a visual-native search framework that represents webpages as visual snapshots, allowing agents to leverage layout cues to quickly localize salient evidence and suppress distractors. To learn effectively from these high-dimensional observations, we introduce Information-Aware Credit Assignment (ICA), a post-hoc method that estimates each retrieved snapshot's contribution to the final outcome via posterior analysis and propagates dense learning signals back to key search turns. Integrated with a GRPO-based training pipeline, our approach consistently outperforms text-based baselines on diverse information-seeking benchmarks, providing evidence that visual snapshot grounding with information-level credit assignment alleviates the credit-assignment bottleneck in open-ended web environments. The code and datasets will be released in https://github.com/pc-inno/ICA_MM_deepsearch.git.


翻译:尽管强化学习训练的信息搜索智能体取得了强劲性能,但在开放式网络环境中的学习仍严重受限于低信噪比反馈。基于文本的解析器通常会丢弃布局语义并引入非结构化噪声,而长视野训练通常依赖于稀疏的结果奖励,这模糊了哪些检索动作真正重要。我们提出了一种视觉原生搜索框架,将网页表示为视觉快照,使智能体能够利用布局线索快速定位关键证据并抑制干扰信息。为了从这些高维观测中有效学习,我们引入了信息感知信用分配(ICA),这是一种通过后验分析估计每个检索快照对最终结果的贡献,并将密集学习信号传播回关键搜索轮次的事后方法。结合基于GRPO的训练流程,我们的方法在多样化信息搜索基准测试中持续优于基于文本的基线,证明了视觉快照基础化与信息级信用分配能够缓解开放式网络环境中的信用分配瓶颈。代码与数据集将在 https://github.com/pc-inno/ICA_MM_deepsearch.git 发布。

0
下载
关闭预览

相关内容

互联网
【ICML2024】理解视觉语言模型的检索增强任务自适应
专知会员服务
23+阅读 · 2024年5月8日
【ICML2024】理解视觉-语言模型的检索增强任务适应
专知会员服务
20+阅读 · 2024年5月3日
专知会员服务
24+阅读 · 2021年9月16日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
深度学习之CNN简介
Python技术博文
20+阅读 · 2018年1月10日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关VIP内容
【ICML2024】理解视觉语言模型的检索增强任务自适应
专知会员服务
23+阅读 · 2024年5月8日
【ICML2024】理解视觉-语言模型的检索增强任务适应
专知会员服务
20+阅读 · 2024年5月3日
专知会员服务
24+阅读 · 2021年9月16日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员