Large language models have advanced web agents, yet current agents lack personalization capabilities. Since users rarely specify every detail of their intent, practical web agents must be able to interpret ambiguous queries by inferring user preferences and contexts. To address this challenge, we present Persona2Web, the first benchmark for evaluating personalized web agents on the real open web, built upon the clarify-to-personalize principle, which requires agents to resolve ambiguity based on user history rather than relying on explicit instructions. Persona2Web consists of: (1) user histories that reveal preferences implicitly over long time spans, (2) ambiguous queries that require agents to infer implicit user preferences, and (3) a reasoning-aware evaluation framework that enables fine-grained assessment of personalization. We conduct extensive experiments across various agent architectures, backbone models, history access schemes, and queries with varying ambiguity levels, revealing key challenges in personalized web agent behavior. For reproducibility, our codes and datasets are publicly available at https://serin-kimm.github.io/Persona2Web/.


翻译:暂无翻译

0
下载
关闭预览

相关内容

【综述】 基于大语言模型的对话用户模拟综述
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
人工智能大模型体验报告2.0, 27页ppt
专知会员服务
124+阅读 · 2023年8月15日
移动互联网应用程序(APP)个人信息保护治理白皮书
专知会员服务
21+阅读 · 2021年11月24日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
用户画像技术及方法论
DataFunTalk
13+阅读 · 2020年5月27日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
Github项目推荐 | Emotion-recognition 实时表情识别
AI科技评论
19+阅读 · 2019年7月8日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
全新发布——用户画像手册V1.1版本
R语言中文社区
18+阅读 · 2018年10月20日
Network Embedding 指南
专知
22+阅读 · 2018年8月13日
[深度学习] AlexNet,GoogLeNet,VGG,ResNet简化版
机器学习和数学
20+阅读 · 2017年10月13日
看完后,别再说自己不懂用户画像了
R语言中文社区
15+阅读 · 2017年8月28日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
12+阅读 · 2020年6月20日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
【综述】 基于大语言模型的对话用户模拟综述
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
人工智能大模型体验报告2.0, 27页ppt
专知会员服务
124+阅读 · 2023年8月15日
移动互联网应用程序(APP)个人信息保护治理白皮书
专知会员服务
21+阅读 · 2021年11月24日
相关资讯
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
用户画像技术及方法论
DataFunTalk
13+阅读 · 2020年5月27日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
Github项目推荐 | Emotion-recognition 实时表情识别
AI科技评论
19+阅读 · 2019年7月8日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
全新发布——用户画像手册V1.1版本
R语言中文社区
18+阅读 · 2018年10月20日
Network Embedding 指南
专知
22+阅读 · 2018年8月13日
[深度学习] AlexNet,GoogLeNet,VGG,ResNet简化版
机器学习和数学
20+阅读 · 2017年10月13日
看完后,别再说自己不懂用户画像了
R语言中文社区
15+阅读 · 2017年8月28日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员