Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B. Code is available at: https://github.com/TencentYoutuResearch/SmartSnap


翻译:智能体强化学习(Agentic RL)在复杂图形用户界面任务下开发自主智能体方面前景广阔,但其可扩展性仍因任务完成验证而严重受限。现有任务验证被视为一种被动的、事后处理过程:验证器(即基于规则的评分脚本、奖励或评论模型,以及LLM-as-a-Judge)通过分析智能体的完整交互轨迹来判断其是否成功。这种处理包含无关噪声历史的冗长上下文的方式,给验证协议带来了挑战,从而导致高昂成本和低可靠性。为突破这一瓶颈,我们提出SmartSnap,将验证范式从这种被动的、事后验证转变为由智能体自身执行的主动、原位自验证。我们引入了自验证智能体,这是一种设计具有双重使命的新型智能体:不仅要完成任务,还要通过精心策划的截图证据来证明其完成情况。在我们提出的3C原则(完整性、简洁性、创造性)指导下,该智能体利用其对在线环境的可访问性,对一组最小化、决定性的截图进行自验证。这些证据将作为通用LLM-as-a-Judge验证器判断其有效性和相关性的唯一材料。跨模型系列和规模的移动任务实验表明,我们的SmartSnap范式能够以可扩展的方式训练LLM驱动的智能体,为80亿和300亿参数模型分别带来高达26.08%和16.66%的性能提升。解决方案寻找与证据寻求之间的协同作用,有助于培养高效的自验证智能体,其性能可与DeepSeek V3.1和Qwen3-235B-A22B相竞争。代码发布于:https://github.com/TencentYoutuResearch/SmartSnap

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
【CMU博士论文】面向目标的自主智能体推理
专知会员服务
25+阅读 · 2025年9月11日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
「基于通信的多智能体强化学习」 进展综述
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
DAI2020 SMARTS 自动驾驶挑战赛(深度强化学习)
深度强化学习实验室
15+阅读 · 2020年8月15日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Exploring Reasoning Reward Model for Agents
Arxiv
0+阅读 · 1月7日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员