User studies are central to user experience research, yet recruiting participant is expensive, slow, and limited in diversity. Recent work has explored using Large Language Models as simulated users, but doubts about fidelity have hindered practical adoption. We deepen this line of research by asking whether scale itself can enable useful simulation, even if not perfectly accurate. We introduce Crowdsourcing Simulated User Agents, a method that recruits generative agents from billion-scale profile assets to act as study participants. Unlike handcrafted simulations, agents are treated as recruitable, screenable, and engageable across UX research stages. To ground this method, we demonstrate a game prototyping study with hundreds of simulated players, comparing their insights against a 10-participant local user study and a 20-participant crowdsourcing study with humans. We find a clear scaling effect: as the number of simulated user agents increases, coverage of human findings rises smoothly and plateaus around 90\%. 12.8 simulated agents are as useful as one locally recruited human, and 3.2 agents are as useful as one crowdsourced human. Results show that while individual agents are imperfect, aggregated simulations produce representative and actionable insights comparable to real users. Professional designers further rated these insights as balancing fidelity, cost, time efficiency, and usefulness. Finally, we release an agent crowdsourcing toolkit with a modular open-source pipeline and a curated pool of profiles synced from ongoing simulation research, to lower the barrier for researchers to adopt simulated participants. Together, this work contributes a validated method and reusable toolkit that expand the options for conducting scalable and practical UX studies.


翻译:用户研究是用户体验研究的核心环节,但招募参与者成本高昂、流程缓慢且多样性有限。近期研究探索了使用大型语言模型作为模拟用户,但对其保真度的质疑阻碍了实际应用。我们通过探究"规模本身是否能够实现有效的模拟(即使并非完全精确)"来深化这一研究方向。本文提出"众包模拟用户智能体"方法,该方法从十亿级规模的档案库中招募生成式智能体作为研究参与者。与手工构建的模拟不同,这些智能体可在用户体验研究的各个阶段被招募、筛选和交互。为验证该方法,我们开展了包含数百名模拟玩家的游戏原型测试研究,并将其洞察结果与10名本地用户研究、20名众包人类用户研究进行对比。我们发现了明确的规模效应:随着模拟用户智能体数量的增加,对人类研究发现结果的覆盖率呈平滑上升趋势,并在约90%处趋于稳定。12.8个模拟智能体的效用相当于1名本地招募的人类参与者,3.2个智能体相当于1名众包人类参与者。结果表明:虽然单个智能体存在缺陷,但聚合后的模拟能够产生与真实用户相当、具有代表性且可操作的洞察。专业设计师进一步评价这些洞察在保真度、成本、时间效率和实用性方面达到了平衡。最后,我们发布了包含模块化开源流程的智能体众包工具包,以及从持续模拟研究中同步的精选档案库,以降低研究者采用模拟参与者的门槛。综上所述,本研究贡献了经过验证的方法和可复用的工具包,为开展可扩展、实用化的用户体验研究提供了新的选择。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2019年1月16日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员