ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents - 专知论文

会员服务 ·

0

Agent · 回合 · 原点 · 多峰值 · 可理解性 ·

ENVS: Environment-Native Verified Search for Long-Horizon GUI Agents

翻译：暂无翻译

Yincheng Zhou,Athena Zhuoming Zhong,Shijie Zhang,Kevin Zhang,Teresa Xiaotao Shang,Shanghang Zhang

As multimodal agents move from interface understanding to real software control, successful trajectory discovery in live desktop environments becomes a key challenge. GUI tasks require long-horizon sequences of precise mouse and keyboard actions, while feedback is sparse, delayed, and costly to obtain through VM rollouts. We propose Environment-Native Verified Search (ENVS), a training-time search-and-filter pipeline that uses the environment to construct verified supervision before policy optimization: it branches over behaviorally distinct GUI actions in live OSWorld VMs, verifies successful leaves, and trains from globally balanced step-level supervision. To evaluate robustness under realistic desktop interruptions, we also introduce OSWorld-Noisy, a dynamic benchmark for recoverable desktop interruptions that preserves the original tasks while testing whether agents can refocus, dismiss, wait, or recover under live perturbations. On the 300-task OSWorld pool, ENVS reaches 30.3 pass@8 on original evaluations and 29.0 on OSWorld-Noisy, outperforming matched ARPO-style online RL while reducing compute from 184-192 to 138-153 GPU-hours; even with only 30% of its search data, ENVS reaches 27.0 pass@8, exceeding ARPO from the base model. Training from noisy environments also better preserves visual-reasoning abilities on auxiliary benchmarks, including OSWorld-G Refusal (16.7 vs. 1.9) and BLINK Functional Correspondence (26.2 vs. 23.1).

翻译：暂无翻译

0

相关内容

Agent

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

14+阅读 · 6月16日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

19+阅读 · 6月4日

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

专知会员服务

22+阅读 · 5月12日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

41+阅读 · 2025年10月17日

Agent有望定义万亿劳动力市场

Agent有望定义万亿劳动力市场

专知会员服务

19+阅读 · 2025年6月11日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

22+阅读 · 2025年5月26日

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

33+阅读 · 2025年3月27日

人工智能专题报告：Operator和Manus打开AI Agent时代

人工智能专题报告：Operator和Manus打开AI Agent时代

专知会员服务

64+阅读 · 2025年3月12日

Al Agent--大模型时代重要落地方向

Al Agent--大模型时代重要落地方向

专知会员服务

107+阅读 · 2024年4月8日

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

专知会员服务

10+阅读 · 2022年3月12日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法

【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法

泡泡机器人SLAM

23+阅读 · 2019年9月7日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

目标检测最新方向：推翻固有设置，不再一成不变Anchor

目标检测最新方向：推翻固有设置，不再一成不变Anchor

极市平台

47+阅读 · 2019年3月1日

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

泡泡机器人SLAM

12+阅读 · 2019年1月26日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组态地理实体符号的传感器实时监控关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Whose Agent Are You? Multi-Layer Fingerprinting and Attribution of Autonomous Web Agents

Arxiv

0+阅读 · 6月18日

Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems

Arxiv

0+阅读 · 6月18日

MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

Arxiv

0+阅读 · 6月18日

UNSEEN: Uncertainty-aware Navigation via Sparse Estimation in Unknown Environments

Arxiv

0+阅读 · 6月18日

ScaleWoB: Guiding GUI Agents with Coding Agents via Large-Scale Environmental Synthesis

Arxiv

0+阅读 · 6月18日

Configuration Smells in AGENTS.md Files: Common Mistakes in Configuring Coding Agents

Arxiv

0+阅读 · 6月17日

Skill-Guided Continuation Distillation for GUI Agents

Arxiv

0+阅读 · 6月17日

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

Arxiv

0+阅读 · 6月17日

Discovering Agents for Discovery: The Case for DNS

Arxiv

0+阅读 · 6月1日

On games and simulators as a platform for development of artificial intelligence for command and control

On games and simulators as a platform for development of artificial intelligence for command and control

Arxiv

90+阅读 · 2021年10月21日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

14+阅读 · 6月16日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

19+阅读 · 6月4日

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

专知会员服务

22+阅读 · 5月12日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

41+阅读 · 2025年10月17日

Agent有望定义万亿劳动力市场

Agent有望定义万亿劳动力市场

专知会员服务

19+阅读 · 2025年6月11日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

22+阅读 · 2025年5月26日

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

33+阅读 · 2025年3月27日

人工智能专题报告：Operator和Manus打开AI Agent时代

人工智能专题报告：Operator和Manus打开AI Agent时代

专知会员服务

64+阅读 · 2025年3月12日

Al Agent--大模型时代重要落地方向

Al Agent--大模型时代重要落地方向

专知会员服务

107+阅读 · 2024年4月8日

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

专知会员服务

10+阅读 · 2022年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法

【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法

泡泡机器人SLAM

23+阅读 · 2019年9月7日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

目标检测最新方向：推翻固有设置，不再一成不变Anchor

目标检测最新方向：推翻固有设置，不再一成不变Anchor

极市平台

47+阅读 · 2019年3月1日

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

泡泡机器人SLAM

12+阅读 · 2019年1月26日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

Whose Agent Are You? Multi-Layer Fingerprinting and Attribution of Autonomous Web Agents

Arxiv

0+阅读 · 6月18日

Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems

Arxiv

0+阅读 · 6月18日

MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

Arxiv

0+阅读 · 6月18日

UNSEEN: Uncertainty-aware Navigation via Sparse Estimation in Unknown Environments

Arxiv

0+阅读 · 6月18日

ScaleWoB: Guiding GUI Agents with Coding Agents via Large-Scale Environmental Synthesis

Arxiv

0+阅读 · 6月18日

Configuration Smells in AGENTS.md Files: Common Mistakes in Configuring Coding Agents

Arxiv

0+阅读 · 6月17日

Skill-Guided Continuation Distillation for GUI Agents

Arxiv

0+阅读 · 6月17日

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

Arxiv

0+阅读 · 6月17日

Discovering Agents for Discovery: The Case for DNS

Arxiv

0+阅读 · 6月1日

On games and simulators as a platform for development of artificial intelligence for command and control

On games and simulators as a platform for development of artificial intelligence for command and control

Arxiv

90+阅读 · 2021年10月21日

相关基金

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组态地理实体符号的传感器实时监控关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员