Web navigation requires agents to follow natural language goals, interact with web pages, and produce accurate answers. While recent advances leverage vision-language models and reinforcement learning, existing methods still suffer from single-step fragility due to reward misalignment and error propagation. To tackle the reward entanglement, we design Dynamic Dual-Policy Optimization (DDPO), which dynamically switches between a navigation-first mode for exploration and an answer-first mode for question-answering to mitigate reward conflict. To calibrate the single-step error, we propose Confidence-Guided Adaptive Navigation Reflection (CANR), a mechanism that estimates per-step confidence, triggers reflection only when necessary, and uses contrastive rewards to encourage self-correction to calibrate the single-step inaccuracy. With the above as the main components, we finally develop our StepGuard, a new framework of Guarding Web Navigation via Single-Step Calibration. Experiments demonstrate that our approach significantly improves navigation and answer accuracy, setting new state-of-the-art performance on standard web navigation benchmarks.


翻译:网页导航要求智能体遵循自然语言目标、与网页交互并生成准确答案。尽管近期进展借助了视觉语言模型和强化学习,现有方法仍因奖励错位与误差传播而存在单步脆弱性问题。为解决奖励纠缠,我们设计了动态双策略优化(DDPO),在探索阶段动态切换至导航优先模式,并在问答阶段切换至答案优先模式,以缓解奖励冲突。为校准单步误差,我们提出置信引导自适应导航反思机制(CANR),该机制可估算每步置信度、仅在必要时触发反思,并利用对比奖励鼓励自我修正,从而校准单步不准确性。以上述方法为核心组件,我们最终构建了StepGuard——一种通过单步校准实现网页导航防护的新框架。实验表明,我们的方法大幅提升了导航与答案准确率,在标准网页导航基准测试中刷新了最优性能记录。

0
下载
关闭预览

相关内容

《战场GPS拒止环境下基于地标定位的安全路径导航》
专知会员服务
19+阅读 · 2025年5月22日
改进型深度确定性策略梯度的无人机路径规划
专知会员服务
15+阅读 · 2025年5月1日
《航空蜂群在区域探索中的最优路径规划》69页
专知会员服务
50+阅读 · 2024年1月15日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
TensorFlow 2.0新特性之Ragged Tensor
深度学习每日摘要
18+阅读 · 2019年4月5日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
《战场GPS拒止环境下基于地标定位的安全路径导航》
专知会员服务
19+阅读 · 2025年5月22日
改进型深度确定性策略梯度的无人机路径规划
专知会员服务
15+阅读 · 2025年5月1日
《航空蜂群在区域探索中的最优路径规划》69页
专知会员服务
50+阅读 · 2024年1月15日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员