E-commerce search serves as a central interface, connecting user demands with massive product inventories and plays a vital role in our daily lives. However, in real-world applications, it faces challenges, including highly ambiguous queries, noisy product texts with weak semantic order, and diverse user preferences, all of which make it difficult to accurately capture user intent and fine-grained product semantics. In recent years, significant advances in large language models (LLMs) for semantic representation and contextual reasoning have created new opportunities to address these challenges. Nevertheless, existing e-commerce search datasets still suffer from notable limitations: queries are often heuristically constructed, cold-start users and long-tail products are filtered out, query and product texts are anonymized, and most datasets cover only a single stage of the search pipeline. Collectively, these issues constrain research on LLM-based e-commerce search. To address these challenges, we construct and release KuaiSearch. To the best of our knowledge, it is the largest e-commerce search dataset currently available. KuaiSearch is built upon real user search interactions from the Kuaishou platform, preserving authentic user queries and natural-language product texts, covering cold-start users and long-tail products, and systematically spanning three key stages of the search pipeline: recall, ranking, and relevance judgment. We conduct a comprehensive analysis of KuaiSearch from multiple perspectives, including products, users, and queries, and establish benchmark experiments across several representative search tasks. Experimental results demonstrate that KuaiSearch provides a valuable foundation for research on real-world e-commerce search.


翻译:电商搜索作为连接用户需求与海量商品库存的核心界面,在我们的日常生活中发挥着至关重要的作用。然而,在实际应用中,它面临着高度模糊的查询、语义顺序薄弱的嘈杂商品文本以及多样化的用户偏好等挑战,这些都使得准确捕捉用户意图与细粒度商品语义变得困难。近年来,大型语言模型在语义表征和上下文推理方面取得了显著进展,为解决这些挑战创造了新的机遇。尽管如此,现有的电商搜索数据集仍存在明显局限:查询通常基于启发式方法构建,冷启动用户和长尾商品被过滤,查询和商品文本被匿名化处理,且大多数数据集仅覆盖搜索管道的单一阶段。这些问题共同限制了基于大语言模型的电商搜索研究。为应对这些挑战,我们构建并发布了KuaiSearch。据我们所知,它是目前可用的最大规模电商搜索数据集。KuaiSearch基于快手平台真实的用户搜索交互构建,保留了真实的用户查询和自然语言商品文本,涵盖了冷启动用户和长尾商品,并系统地覆盖了搜索管道的三个关键阶段:召回、排序与相关性判断。我们从商品、用户和查询等多个角度对KuaiSearch进行了全面分析,并在多个代表性搜索任务上建立了基准实验。实验结果表明,KuaiSearch为真实世界电商搜索的研究提供了宝贵的基准。

0
下载
关闭预览

相关内容

互联网
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
《搜索型数据库白皮书》正式发布, 45页pdf
专知会员服务
34+阅读 · 2024年7月19日
AIGC行业深度报告:ChatGPT:重新定义搜索“入口”
专知会员服务
138+阅读 · 2023年2月10日
阿里巴巴千亿级大规模数字商业知识图谱助力业务增长
专知会员服务
37+阅读 · 2022年6月26日
专知会员服务
22+阅读 · 2021年4月1日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
不要担心没数据!史上最全数据集网站汇总
【推荐系统】深度解析京东个性化推荐系统演进史
产业智能官
23+阅读 · 2017年12月8日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员