We present a production-oriented semantic retrieval system for Uber Eats that unifies retrieval across stores, dishes, and grocery/retail items. Our approach fine-tunes a Qwen2 two-tower base model using hundreds of millions of query-document interactions that were aggregated and anonymized pretraining. We train the model with a combination of InfoNCE on in-batch negatives and triplet-NCE loss on hard negatives, and we leverage Matryoshka Representation Learning (MRL) to serve multiple embedding sizes from a single model. Our system achieves substantial recall gains over a strong baseline across six markets and three verticals. This paper presents the end to end work including data curation, model architecture, large-scale training, and evaluation. We also share key insights and practical lessons for building a unified, multilingual, and multi-vertical retrieval system for consumer search.


翻译:本文提出一种面向生产环境的语义检索系统,用于Uber Eats平台,实现对商家、菜品及杂货/零售商品的统一检索。该方法基于Qwen2双塔基础模型,利用数亿条经聚合与匿名化预处理的查询-文档交互数据进行微调。我们结合批次内负样本的InfoNCE损失与难负样本的三元组NCE损失进行模型训练,并采用套娃表示学习(MRL)技术实现单一模型支持多种嵌入维度。该系统在六个市场与三个垂直领域中,相较强基线模型均取得显著的召回率提升。本文系统阐述了包含数据治理、模型架构、大规模训练及评估在内的完整工作流程,同时分享了构建统一、多语言、多垂直领域消费搜索检索系统的关键洞见与实践经验。

0
下载
关闭预览

相关内容

蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
24+阅读 · 2024年5月25日
知识图谱在美团推荐场景中的应用
专知会员服务
67+阅读 · 2022年5月21日
面向语义搜索的自然语言处理
专知会员服务
60+阅读 · 2021年12月18日
专知会员服务
22+阅读 · 2021年4月1日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
AB实验在滴滴数据驱动中的应用
DataFunTalk
15+阅读 · 2020年5月31日
滴滴离线索引快速构建FastIndex架构实践
InfoQ
21+阅读 · 2020年3月19日
一种轻量级在线多目标车辆跟踪方法
极市平台
15+阅读 · 2018年8月18日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
0+阅读 · 今天3:12
(中文)认知战的本体论基础(2026报告)
专知会员服务
7+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
2+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
7+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员