Can large language models (LLMs) accurately simulate the next web action of a specific user? While LLMs have shown promising capabilities in generating ``believable'' human behaviors, evaluating their ability to mimic real user behaviors remains an open challenge, largely due to the lack of high-quality, publicly available datasets that capture both the observable actions and the internal reasoning of an actual human user. To address this gap, we introduce OPERA, a novel dataset of Observation, Persona, Rationale, and Action collected from real human participants during online shopping sessions. OPERA is the first public dataset that comprehensively captures: user personas, browser observations, fine-grained web actions, and self-reported just-in-time rationales. We developed both an online questionnaire and a custom browser plugin to gather this dataset with high fidelity. Using OPERA, we establish the first benchmark to evaluate how well current LLMs can predict a specific user's next action and rationale with a given persona and <observation, action, rationale> history. This dataset lays the groundwork for future research into LLM agents that aim to act as personalized digital twins for human.


翻译:大语言模型能否准确模拟特定用户的下一步网页操作?尽管大语言模型在生成“可信”人类行为方面展现出巨大潜力,但评估其模仿真实用户行为的能力仍是一项开放性挑战,其主要瓶颈在于缺乏同时捕获实际人类用户的可观察行为与内在推理过程的高质量公开数据集。为填补这一空白,我们提出OPeRA——一个从真实人类参与者在在线购物过程中采集的观察、人格、理由与行为新型数据集。OPeRA是首个全面捕获用户画像、浏览器观测数据、细粒度网页操作及即时自我报告理由的公开数据集。我们开发了在线问卷与定制浏览器插件,以高保真度采集该数据集。基于OPeRA,我们建立了首个基准测试,系统评估当前大语言模型在给定用户画像及<观察、行为、理由>历史记录下,预测特定用户下一步操作与理由的能力。该数据集为探索以个性化数字孪生为目标的LLM智能体研究奠定了基础。

0
下载
关闭预览

相关内容

【综述】 基于大语言模型的对话用户模拟综述
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
87+阅读 · 2022年10月29日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
相关主题
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
1+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员