Search in e-Commerce is powered at the core by a structured representation of the inventory, often formulated as a category taxonomy. An important capability in e-Commerce with hierarchical taxonomies is to select a set of relevant leaf categories that are semantically aligned with a given user query. In this scope, we address a fundamental problem of search query categorization in real-world e-Commerce taxonomies. A correct categorization of a query not only provides a way to zoom into the correct inventory space, but opens the door to multiple intent understanding capabilities for a query. A practical and accurate solution to this problem has many applications in e-commerce, including constraining retrieved items and improving the relevance of the search results. For this task, we explore a novel Chain-of-Thought (CoT) paradigm that combines simple tree-search with LLM semantic scoring. Assessing its classification performance on human-judged query-category pairs, relevance tests, and LLM-based reference methods, we find that the CoT approach performs better than a benchmark that uses embedding-based query category predictions. We show how the CoT approach can detect problems within a hierarchical taxonomy. Finally, we also propose LLM-based approaches for query-categorization of the same spirit, but which scale better at the range of millions of queries.


翻译:电子商务搜索的核心驱动力在于库存的结构化表示,通常体现为分类体系。在具有层级分类体系的电子商务中,一项关键能力是选择一组与给定用户查询语义对齐的相关叶类别。在此背景下,我们致力于解决现实世界电子商务分类体系中的搜索查询分类这一基础问题。对查询进行正确分类不仅提供了聚焦正确库存空间的方法,还为深入理解查询的多重意图打开了大门。针对此问题的实用且准确的解决方案在电子商务中具有广泛应用,包括约束检索项和提升搜索结果的相关性。针对此任务,我们探索了一种新颖的思维链范式,该范式将简单的树搜索与大型语言模型语义评分相结合。通过评估其在人工标注的查询-类别对、相关性测试以及基于LLM的参考方法上的分类性能,我们发现思维链方法的表现优于使用基于嵌入的查询类别预测的基准方法。我们展示了思维链方法如何检测层级分类体系内部的问题。最后,我们还提出了基于相同理念但能更好地扩展到百万级查询规模的LLM查询分类方法。

0
下载
关闭预览

相关内容

电子商务( Electronic Commerce)的定义: 电子商务是利用 计算机技术网络技术和远程通信技术,实现电子化、 数字化网络化的整个商务过程。   联合国国际贸易程序简化工作组对电子商务的定义是:采用电子形式开展商务活动,它包括在供应商、客户、政府及其他参与方之间通过任何电子工具,如 EDIWeb技术电子邮件等共享非结构化商务信息,并管理和完成在商务活动、管理活动和消费活动中的各种交易。
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
【SIGIR2024教程】基于大语言模型的信息检索代理
专知会员服务
39+阅读 · 2024年7月17日
专知会员服务
21+阅读 · 2020年9月11日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
【推荐系统】深度解析京东个性化推荐系统演进史
产业智能官
23+阅读 · 2017年12月8日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
【SIGIR2024教程】基于大语言模型的信息检索代理
专知会员服务
39+阅读 · 2024年7月17日
专知会员服务
21+阅读 · 2020年9月11日
相关基金
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员