The proliferation of e-commerce has made web shopping platforms key gateways for customers navigating the vast digital marketplace. Yet this rapid expansion has led to a noisy and fragmented information environment, increasing cognitive burden as shoppers explore and purchase products online. With promising potential to alleviate this challenge, agentic systems have garnered growing attention for automating user-side tasks in web shopping. Despite significant advancements, existing benchmarks fail to comprehensively evaluate how well agentic systems can curate products in open-web settings. Specifically, they have limited coverage of shopping scenarios, focusing only on simplified single-platform lookups rather than exploratory search. Moreover, they overlook personalization in evaluation, leaving unclear whether agents can adapt to diverse user preferences in realistic shopping contexts. To address this gap, we present AgenticShop, the first benchmark for evaluating agentic systems on personalized product curation in open-web environment. Crucially, our approach features realistic shopping scenarios, diverse user profiles, and a verifiable, checklist-driven personalization evaluation framework. Through extensive experiments, we demonstrate that current agentic systems remain largely insufficient, emphasizing the need for user-side systems that effectively curate tailored products across the modern web.


翻译:电子商务的蓬勃发展使网络购物平台成为消费者在广阔数字市场中导航的关键门户。然而,这种快速扩张导致了嘈杂且碎片化的信息环境,增加了消费者在线探索和购买产品时的认知负担。智能体系统在自动化用户端网络购物任务方面展现出巨大潜力,为缓解这一挑战提供了可能,因而受到越来越多的关注。尽管已有显著进展,现有基准评测仍无法全面评估智能体系统在开放网络环境中策展产品的能力。具体而言,现有评测对购物场景的覆盖有限,仅关注简化的单平台查找而非探索式搜索。此外,它们在评估中忽视了个性化因素,导致无法明确智能体能否在真实购物场景中适应多样化的用户偏好。为填补这一空白,我们提出了AgenticShop——首个用于评估开放网络环境中个性化产品策展智能体系统的基准评测。我们的方法核心在于:真实的购物场景、多样化的用户画像,以及可验证的、基于检查表的个性化评估框架。通过大量实验,我们证明当前智能体系统仍存在明显不足,这凸显了开发能够在现代网络环境中有效策展定制化产品的用户端系统的迫切需求。

0
下载
关闭预览

相关内容

用来满足人们需求和欲望的物体或无形的载体。好的产品大家都喜欢
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
智能体网络:用AI智能体编织下一代网络
专知会员服务
30+阅读 · 2025年8月5日
个性化广告推荐系统及其应用研究
专知会员服务
96+阅读 · 2021年2月27日
个性化推荐系统技术进展
专知会员服务
66+阅读 · 2020年8月15日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
【推荐系统】深度解析京东个性化推荐系统演进史
产业智能官
23+阅读 · 2017年12月8日
【智能客服】智能客服2.0,数字时代的人性化交互
产业智能官
13+阅读 · 2017年11月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员