Scaling Multilingual Semantic Search in Uber Eats Delivery - 专知论文

会员服务 ·

0

系统 · EATS · 搜索 · 语义搜索 · 负样本 ·

Scaling Multilingual Semantic Search in Uber Eats Delivery

翻译：Uber Eats配送中多语言语义搜索的规模化实现

Bo Ling,Zheng Liu,Haoyang Chen,Divya Nagar,Luting Yang,Mehul Parsana

from arxiv, 15 pages, 11 tables, 1 figure. Planned for submission to SIGIR or KDD 2026

We present a production-oriented semantic retrieval system for Uber Eats that unifies retrieval across stores, dishes, and grocery/retail items. Our approach fine-tunes a Qwen2 two-tower base model using hundreds of millions of query-document interactions that were aggregated and anonymized pretraining. We train the model with a combination of InfoNCE on in-batch negatives and triplet-NCE loss on hard negatives, and we leverage Matryoshka Representation Learning (MRL) to serve multiple embedding sizes from a single model. Our system achieves substantial recall gains over a strong baseline across six markets and three verticals. This paper presents the end to end work including data curation, model architecture, large-scale training, and evaluation. We also share key insights and practical lessons for building a unified, multilingual, and multi-vertical retrieval system for consumer search.

翻译：本文提出一种面向生产环境的语义检索系统，用于Uber Eats平台，实现对商家、菜品及杂货/零售商品的统一检索。该方法基于Qwen2双塔基础模型，利用数亿条经聚合与匿名化预处理的查询-文档交互数据进行微调。我们结合批次内负样本的InfoNCE损失与难负样本的三元组NCE损失进行模型训练，并采用套娃表示学习（MRL）技术实现单一模型支持多种嵌入维度。该系统在六个市场与三个垂直领域中，相较强基线模型均取得显著的召回率提升。本文系统阐述了包含数据治理、模型架构、大规模训练及评估在内的完整工作流程，同时分享了构建统一、多语言、多垂直领域消费搜索检索系统的关键洞见与实践经验。

0

相关内容

蚂蚁多模态团队在视频多模态方向的技术探索

蚂蚁多模态团队在视频多模态方向的技术探索

专知会员服务

24+阅读 · 2024年5月25日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

知识图谱在美团推荐场景中的应用

知识图谱在美团推荐场景中的应用

专知会员服务

67+阅读 · 2022年5月21日

面向语义搜索的自然语言处理

面向语义搜索的自然语言处理

专知会员服务

60+阅读 · 2021年12月18日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

5G+智能时代的多模搜索技术

专知会员服务

22+阅读 · 2021年4月1日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

AAAI 2020 | 滴滴自主提出基于注意力机制的异构图神经网络模型

专知会员服务

53+阅读 · 2020年2月26日

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

AB实验在滴滴数据驱动中的应用

AB实验在滴滴数据驱动中的应用

DataFunTalk

15+阅读 · 2020年5月31日

滴滴离线索引快速构建FastIndex架构实践

滴滴离线索引快速构建FastIndex架构实践

InfoQ

21+阅读 · 2020年3月19日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

大众点评搜索基于知识图谱的深度学习排序实践

大众点评搜索基于知识图谱的深度学习排序实践

数据猿

11+阅读 · 2019年1月22日

领域应用 | 大众点评搜索基于知识图谱的深度学习排序实践

领域应用 | 大众点评搜索基于知识图谱的深度学习排序实践

开放知识图谱

11+阅读 · 2019年1月21日

一种轻量级在线多目标车辆跟踪方法

一种轻量级在线多目标车辆跟踪方法

极市平台

15+阅读 · 2018年8月18日

SLA 99.99%以上！饿了么实时计算平台3年演进历程

SLA 99.99%以上！饿了么实时计算平台3年演进历程

51CTO博客

11+阅读 · 2018年4月10日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

协同视角下社会化搜索的形成机制及实现模式研究

国家自然科学基金

0+阅读 · 2014年12月31日

O2O业务模式下的供应链参与者决策和协调机制及方法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding

Arxiv

0+阅读 · 4月17日

Unified Supervision for Walmart's Sponsored Search Retrieval via Joint Semantic Relevance and Behavioral Engagement Modeling

Arxiv

0+阅读 · 4月10日

Multi-LLM Query Optimization

Arxiv

0+阅读 · 3月24日

GenFacet: End-to-End Generative Faceted Search via Multi-Task Preference Alignment in E-Commerce

Arxiv

0+阅读 · 3月20日

A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Arxiv

0+阅读 · 3月18日

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Arxiv

0+阅读 · 3月6日

Unified Learning-to-Rank for Multi-Channel Retrieval in Large-Scale E-Commerce Search

Arxiv

0+阅读 · 3月6日

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Arxiv

0+阅读 · 3月5日

Unified Learning-to-Rank for Multi-Channel Retrieval in Large-Scale E-Commerce Search

Arxiv

0+阅读 · 3月4日

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Arxiv

0+阅读 · 2月26日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

12+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

6+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

蚂蚁多模态团队在视频多模态方向的技术探索

蚂蚁多模态团队在视频多模态方向的技术探索

专知会员服务

24+阅读 · 2024年5月25日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

知识图谱在美团推荐场景中的应用

知识图谱在美团推荐场景中的应用

专知会员服务

67+阅读 · 2022年5月21日

面向语义搜索的自然语言处理

面向语义搜索的自然语言处理

专知会员服务

60+阅读 · 2021年12月18日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

5G+智能时代的多模搜索技术

专知会员服务

22+阅读 · 2021年4月1日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

AAAI 2020 | 滴滴自主提出基于注意力机制的异构图神经网络模型

专知会员服务

53+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

AB实验在滴滴数据驱动中的应用

AB实验在滴滴数据驱动中的应用

DataFunTalk

15+阅读 · 2020年5月31日

滴滴离线索引快速构建FastIndex架构实践

滴滴离线索引快速构建FastIndex架构实践

InfoQ

21+阅读 · 2020年3月19日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

大众点评搜索基于知识图谱的深度学习排序实践

大众点评搜索基于知识图谱的深度学习排序实践

数据猿

11+阅读 · 2019年1月22日

领域应用 | 大众点评搜索基于知识图谱的深度学习排序实践

领域应用 | 大众点评搜索基于知识图谱的深度学习排序实践

开放知识图谱

11+阅读 · 2019年1月21日

一种轻量级在线多目标车辆跟踪方法

一种轻量级在线多目标车辆跟踪方法

极市平台

15+阅读 · 2018年8月18日

SLA 99.99%以上！饿了么实时计算平台3年演进历程

SLA 99.99%以上！饿了么实时计算平台3年演进历程

51CTO博客

11+阅读 · 2018年4月10日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

相关论文

SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding

Arxiv

0+阅读 · 4月17日

Unified Supervision for Walmart's Sponsored Search Retrieval via Joint Semantic Relevance and Behavioral Engagement Modeling

Arxiv

0+阅读 · 4月10日

Multi-LLM Query Optimization

Arxiv

0+阅读 · 3月24日

GenFacet: End-to-End Generative Faceted Search via Multi-Task Preference Alignment in E-Commerce

Arxiv

0+阅读 · 3月20日

A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Arxiv

0+阅读 · 3月18日

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Arxiv

0+阅读 · 3月6日

Unified Learning-to-Rank for Multi-Channel Retrieval in Large-Scale E-Commerce Search

Arxiv

0+阅读 · 3月6日

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Arxiv

0+阅读 · 3月5日

Unified Learning-to-Rank for Multi-Channel Retrieval in Large-Scale E-Commerce Search

Arxiv

0+阅读 · 3月4日

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Arxiv

0+阅读 · 2月26日

相关基金

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

协同视角下社会化搜索的形成机制及实现模式研究

国家自然科学基金

0+阅读 · 2014年12月31日

O2O业务模式下的供应链参与者决策和协调机制及方法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员