Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search - 专知论文

会员服务 ·

0

嵌入 · 排序 · 多模 · 模态 · 搜索 ·

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

翻译：Pailitao-VL：面向实时多模态工业搜索的统一嵌入与重排序器

Lei Chen,Chen Ju,Xu Chen,Zhicheng Wang,Yuheng Jiao,Hongfeng Zhan,Zhaoyang Li,Shihao Xu,Zhixiang Zhao,Tong Jia,Jinsong Lan,Xiaoyong Zhu,Bo Zheng

In this work, we presented Pailitao-VL, a comprehensive multi-modal retrieval system engineered for high-precision, real-time industrial search. We here address three critical challenges in the current SOTA solution: insufficient retrieval granularity, vulnerability to environmental noise, and prohibitive efficiency-performance gap. Our primary contribution lies in two fundamental paradigm shifts. First, we transitioned the embedding paradigm from traditional contrastive learning to an absolute ID-recognition task. Through anchoring instances to a globally consistent latent space defined by billions of semantic prototypes, we successfully overcome the stochasticity and granularity bottlenecks inherent in existing embedding solutions. Second, we evolved the generative reranker from isolated pointwise evaluation to the compare-and-calibrate listwise policy. By synergizing chunk-based comparative reasoning with calibrated absolute relevance scoring, the system achieves nuanced discriminative resolution while circumventing the prohibitive latency typically associated with conventional reranking methods. Extensive offline benchmarks and online A/B tests on Alibaba e-commerce platform confirm that Pailitao-VL achieves state-of-the-art performance and delivers substantial business impact. This work demonstrates a robust and scalable path for deploying advanced MLLM-based retrieval architectures in demanding, large-scale production environments.

翻译：本文提出了Pailitao-VL，一个为高精度、实时工业搜索设计的综合性多模态检索系统。我们解决了当前SOTA方案中的三个关键挑战：检索粒度不足、对环境噪声的脆弱性以及难以接受的效率-性能差距。我们的主要贡献在于两个根本性的范式转变。首先，我们将嵌入范式从传统的对比学习转变为绝对的ID识别任务。通过将实例锚定在由数十亿语义原型定义的全局一致潜在空间中，我们成功克服了现有嵌入解决方案固有的随机性和粒度瓶颈。其次，我们将生成式重排序器从孤立的逐点评估演进为比较-校准的列表策略。通过将基于分块的比较推理与校准的绝对相关性评分相结合，系统实现了精细的判别分辨率，同时规避了传统重排序方法通常伴随的难以接受的延迟。在阿里巴巴电商平台上进行的广泛离线基准测试和在线A/B测试证实，Pailitao-VL实现了最先进的性能并带来了显著的商业影响。这项工作为在要求苛刻的大规模生产环境中部署基于MLLM的先进检索架构展示了一条稳健且可扩展的路径。

0

相关内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

15+阅读 · 2025年11月14日

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

专知会员服务

7+阅读 · 2025年6月10日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

YOLOv1 到 YOLOv10：最快且最准确的实时目标检测系统

YOLOv1 到 YOLOv10：最快且最准确的实时目标检测系统

专知会员服务

42+阅读 · 2024年8月22日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

重构 Palantir 数据模型

重构 Palantir 数据模型

待字闺中

35+阅读 · 2018年12月27日

Palantir的新专利曝光：挖掘和整合全世界的数据

Palantir的新专利曝光：挖掘和整合全世界的数据

炼数成金订阅号

20+阅读 · 2018年3月30日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂构型下多介质流体力学ALE方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

排序管理的帕累托优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

Arxiv

0+阅读 · 3月6日

NeuroPareto: Calibrated Acquisition for Costly Many-Goal Search in Vast Parameter Spaces

Arxiv

0+阅读 · 3月4日

COMRES-VLM: Coordinated Multi-Robot Exploration and Search using Vision Language Models

Arxiv

0+阅读 · 3月1日

TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation

Arxiv

0+阅读 · 2月28日

Orcheo: A Modular Full-Stack Platform for Conversational Search

Arxiv

0+阅读 · 2月16日

NeuroPareto: Calibrated Acquisition for Costly Many-Goal Search in Vast Parameter Spaces

Arxiv

0+阅读 · 2月14日

MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization

Arxiv

0+阅读 · 2月10日

MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization

Arxiv

0+阅读 · 2月7日

LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval

Arxiv

0+阅读 · 2月4日

NeuroPareto: Calibrated Acquisition for Costly Many-Goal Search in Vast Parameter Spaces

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

2+阅读 · 今天11:09

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

1+阅读 · 今天11:05

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

4+阅读 · 今天2:54

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

6+阅读 · 今天2:47

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

5+阅读 · 今天2:40

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

4+阅读 · 今天2:34

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

3+阅读 · 今天2:12

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

4+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

4+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

4+阅读 · 7月25日

《决策模型比较研究》

《决策模型比较研究》

专知会员服务

11+阅读 · 7月25日

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

专知会员服务

7+阅读 · 7月25日

《美军水下战与海床战概述及本地实施》

《美军水下战与海床战概述及本地实施》

专知会员服务

6+阅读 · 7月25日

面向未来冲突推进陆军情报体制改革

面向未来冲突推进陆军情报体制改革

专知会员服务

5+阅读 · 7月25日

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

专知会员服务

6+阅读 · 7月25日

相关VIP内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

15+阅读 · 2025年11月14日

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

专知会员服务

7+阅读 · 2025年6月10日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

YOLOv1 到 YOLOv10：最快且最准确的实时目标检测系统

YOLOv1 到 YOLOv10：最快且最准确的实时目标检测系统

专知会员服务

42+阅读 · 2024年8月22日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

热门VIP内容

开通专知VIP会员享更多权益服务

ICM 2026 | 陶哲轩：人工智能时代的数学

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

ICML 2026 教程 | 数值优化理论还重要吗？

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

重构 Palantir 数据模型

重构 Palantir 数据模型

待字闺中

35+阅读 · 2018年12月27日

Palantir的新专利曝光：挖掘和整合全世界的数据

Palantir的新专利曝光：挖掘和整合全世界的数据

炼数成金订阅号

20+阅读 · 2018年3月30日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

Arxiv

0+阅读 · 3月6日

NeuroPareto: Calibrated Acquisition for Costly Many-Goal Search in Vast Parameter Spaces

Arxiv

0+阅读 · 3月4日

COMRES-VLM: Coordinated Multi-Robot Exploration and Search using Vision Language Models

Arxiv

0+阅读 · 3月1日

TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation

Arxiv

0+阅读 · 2月28日

Orcheo: A Modular Full-Stack Platform for Conversational Search

Arxiv

0+阅读 · 2月16日

NeuroPareto: Calibrated Acquisition for Costly Many-Goal Search in Vast Parameter Spaces

Arxiv

0+阅读 · 2月14日

MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization

Arxiv

0+阅读 · 2月10日

MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization

Arxiv

0+阅读 · 2月7日

LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval

Arxiv

0+阅读 · 2月4日

NeuroPareto: Calibrated Acquisition for Costly Many-Goal Search in Vast Parameter Spaces

Arxiv

0+阅读 · 2月3日

相关基金

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂构型下多介质流体力学ALE方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

排序管理的帕累托优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员