OneVision：面向多视角电商视觉搜索的端到端生成式框架 (OneVision: An End-to-End Generative Framework for Multi-view E-commerce Vision Search) - 专知论文

会员服务 ·

0

搜索 · 多视角 · 视觉搜索 · 端到端 · 多阶 ·

OneVision: An End-to-End Generative Framework for Multi-view E-commerce Vision Search

翻译：OneVision：面向多视角电商视觉搜索的端到端生成式框架

Zexin Zheng,Huangyu Dai,Lingtao Mao,Xinyu Sun,Zihan Liang,Ben Chen,Yuqing Ding,Chenyi Lei,Wenwu Ou,Han Li,Kun Gai

Traditional vision search, similar to search and recommendation systems, follows the multi-stage cascading architecture (MCA) paradigm to balance efficiency and conversion. Specifically, the query image undergoes feature extraction, recall, pre-ranking, and ranking stages, ultimately presenting the user with semantically similar products that meet their preferences. This multi-view representation discrepancy of the same object in the query and the optimization objective collide across these stages, making it difficult to achieve Pareto optimality in both user experience and conversion. In this paper, an end-to-end generative framework, OneVision, is proposed to address these problems. OneVision builds on VRQ, a vision-aligned residual quantization encoding, which can align the vastly different representations of an object across multiple viewpoints while preserving the distinctive features of each product as much as possible. Then a multi-stage semantic alignment scheme is adopted to maintain strong visual similarity priors while effectively incorporating user-specific information for personalized preference generation. In offline evaluations, OneVision performs on par with online MCA, while improving inference efficiency by 21% through dynamic pruning. In A/B tests, it achieves significant online improvements: +2.15% item CTR, +2.27% CVR, and +3.12% order volume. These results demonstrate that a semantic ID centric, generative architecture can unify retrieval and personalization while simplifying the serving pathway.

翻译：传统的视觉搜索，与搜索和推荐系统类似，遵循多阶段级联架构范式，以平衡效率与转化率。具体而言，查询图像经过特征提取、召回、预排序和排序等阶段，最终向用户呈现语义相似且符合其偏好的商品。查询中同一对象的多视角表征差异与各阶段的优化目标存在冲突，使得在用户体验和转化率两方面难以达到帕累托最优。本文提出一种端到端的生成式框架 OneVision 来解决这些问题。OneVision 基于 VRQ（一种视觉对齐残差量化编码）构建，该编码能够对齐同一对象在不同视角下的巨大表征差异，同时尽可能保留每个商品的独有特征。随后，采用多阶段语义对齐方案，在保持强视觉相似性先验的同时，有效融入用户特定信息以生成个性化偏好。在离线评估中，OneVision 的性能与在线多阶段级联架构相当，同时通过动态剪枝将推理效率提升了 21%。在 A/B 测试中，它取得了显著的在线改进：商品点击率提升 2.15%，转化率提升 2.27%，订单量提升 3.12%。这些结果表明，以语义 ID 为核心的生成式架构能够统一检索与个性化，同时简化服务路径。

0

相关内容

互联网

【博士论文】电商搜索中的排序学习

【博士论文】电商搜索中的排序学习

专知会员服务

13+阅读 · 2025年11月15日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

【CIKM2020】利用自注意力网络使搜索结果多样化

【CIKM2020】利用自注意力网络使搜索结果多样化

专知会员服务

13+阅读 · 2020年11月6日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

推荐系统丨完整的架构设计和算法（协同过滤、隐语义）

推荐系统丨完整的架构设计和算法（协同过滤、隐语义）

架构文摘

16+阅读 · 2019年9月9日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【干货】一文教你构建图书推荐系统（附代码）

【干货】一文教你构建图书推荐系统（附代码）

专知

28+阅读 · 2018年4月19日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

物联网安全搜索技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

协同视角下社会化搜索的形成机制及实现模式研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于微博社区的知识图谱构建与分析

国家自然科学基金

27+阅读 · 2014年12月31日

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 2月4日

Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce

Arxiv

0+阅读 · 2月2日

OneFlowSBI: One Model, Many Queries for Simulation-Based Inference

Arxiv

0+阅读 · 1月30日

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 1月29日

TaoSR-AGRL: Adaptive Guided Reinforcement Learning Framework for E-commerce Search Relevance

Arxiv

0+阅读 · 1月24日

A Multimodal Assistive System for Product Localization and Retrieval for People who are Blind or have Low Vision

Arxiv

0+阅读 · 1月18日

Unifying Search and Recommendation in LLMs via Gradient Multi-Subspace Tuning

Arxiv

0+阅读 · 1月14日

LEAPS: An LLM-Empowered Adaptive Plugin for Taobao AI Search

Arxiv

0+阅读 · 1月9日

A Chain-of-Thought Approach to Semantic Query Categorization in e-Commerce Taxonomies

Arxiv

0+阅读 · 1月1日

OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】电商搜索中的排序学习

【博士论文】电商搜索中的排序学习

专知会员服务

13+阅读 · 2025年11月15日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

【CIKM2020】利用自注意力网络使搜索结果多样化

【CIKM2020】利用自注意力网络使搜索结果多样化

专知会员服务

13+阅读 · 2020年11月6日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

推荐系统丨完整的架构设计和算法（协同过滤、隐语义）

推荐系统丨完整的架构设计和算法（协同过滤、隐语义）

架构文摘

16+阅读 · 2019年9月9日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【干货】一文教你构建图书推荐系统（附代码）

【干货】一文教你构建图书推荐系统（附代码）

专知

28+阅读 · 2018年4月19日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 2月4日

Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce

Arxiv

0+阅读 · 2月2日

OneFlowSBI: One Model, Many Queries for Simulation-Based Inference

Arxiv

0+阅读 · 1月30日

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 1月29日

TaoSR-AGRL: Adaptive Guided Reinforcement Learning Framework for E-commerce Search Relevance

Arxiv

0+阅读 · 1月24日

A Multimodal Assistive System for Product Localization and Retrieval for People who are Blind or have Low Vision

Arxiv

0+阅读 · 1月18日

Unifying Search and Recommendation in LLMs via Gradient Multi-Subspace Tuning

Arxiv

0+阅读 · 1月14日

LEAPS: An LLM-Empowered Adaptive Plugin for Taobao AI Search

Arxiv

0+阅读 · 1月9日

A Chain-of-Thought Approach to Semantic Query Categorization in e-Commerce Taxonomies

Arxiv

0+阅读 · 1月1日

OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation

Arxiv

0+阅读 · 2025年12月31日

相关基金

物联网安全搜索技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

协同视角下社会化搜索的形成机制及实现模式研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于微博社区的知识图谱构建与分析

国家自然科学基金

27+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员