Multimodal large-scale models have significantly advanced the development of web agents, enabling perception and interaction with digital environments akin to human cognition. In this paper, we argue that web agents must first acquire sufficient knowledge to effectively engage in cognitive reasoning. Therefore, we decompose a web agent's capabilities into two essential stages: knowledge content learning and cognitive processes. To formalize this, we propose Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and Procedural. In this framework, knowledge content learning corresponds to the agent's processes of Memorizing and Understanding, which rely on the first two knowledge types, representing the "what" of learning. Conversely, cognitive processes correspond to Exploring, grounded in Procedural knowledge, defining the "how" of reasoning and action. To facilitate knowledge acquisition, we construct the Web-CogDataset, a structured resource curated from 14 real-world websites, designed to systematically instill core knowledge necessary for web agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon which comprehension is built-as well as the basis for learning how to reason and act. Building on this foundation, we operationalize these processes through a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing and training our proposed agent, the Web-CogReasoner. Extensive experimentation reveals its significant superiority over existing models, especially in generalizing to unseen tasks where structured knowledge is decisive. To enable rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation suite designed to assess and compare agent performance across the delineated knowledge domains and cognitive capabilities. Our code and data is open sourced at https://github.com/Gnonymous/Web-CogReasoner


翻译:多模态大模型显著推动了网络智能体的发展,使其能够以类人认知方式感知数字环境并与之交互。本文主张,网络智能体必须首先获取足够知识才能有效进行认知推理。为此,我们将网络智能体的能力分解为两个核心阶段:知识内容学习与认知过程。为形式化这一框架,我们提出Web-CogKnowledge框架,将知识划分为事实性、概念性与程序性三类。在该框架中,知识内容学习对应智能体的记忆与理解过程,依赖于前两类知识,表征学习的“内容”维度;而认知过程则对应基于程序性知识的探索过程,界定推理与行动的“方法”维度。为促进知识获取,我们构建了Web-CogDataset——一个从14个真实网站提炼的结构化资源库,旨在系统化注入网络智能体所需的核心知识。该数据集既构成智能体的概念基础(即理解所依托的“名词”),也作为学习如何推理与行动的依据。基于此基础,我们通过新颖的知识驱动思维链推理框架将这些过程操作化,开发并训练了所提出的Web-CogReasoner智能体。大量实验表明其显著优于现有模型,尤其在需要结构化知识决策的未见任务泛化方面表现突出。为建立严谨评估体系,我们提出了Web-CogBench——一个综合性评估套件,用于衡量和比较智能体在既定知识领域与认知能力上的表现。相关代码与数据已在https://github.com/Gnonymous/Web-CogReasoner开源。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
数据驱动的具身学习探索
专知会员服务
10+阅读 · 2025年2月26日
面向网络空间认知战的大语言模型:技术与挑战
专知会员服务
50+阅读 · 2025年1月3日
大模型智能体:概念、前沿和产业实践
专知会员服务
76+阅读 · 2024年8月20日
基于大模型的态势认知智能体
专知会员服务
194+阅读 · 2024年4月7日
数据驱动的态势认知技术及发展思考
专知
18+阅读 · 2022年7月12日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
38+阅读 · 2017年9月12日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
数据驱动的具身学习探索
专知会员服务
10+阅读 · 2025年2月26日
面向网络空间认知战的大语言模型:技术与挑战
专知会员服务
50+阅读 · 2025年1月3日
大模型智能体:概念、前沿和产业实践
专知会员服务
76+阅读 · 2024年8月20日
基于大模型的态势认知智能体
专知会员服务
194+阅读 · 2024年4月7日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员