UniNote: A Unified Embedding Model for Multimodal Representation and Ranking - 专知论文

会员服务 ·

0

嵌入 · 表示 · 多模 · 模态 · 多模态 ·

UniNote: A Unified Embedding Model for Multimodal Representation and Ranking

翻译：UniNote：一种用于多模态表示与排名的统一嵌入模型

Jinghan Zhao,Wenwei Jin,Anqi Li,Jintao Tong,Luya Mo,Jiawei Li,Bin Li,Yao Hu

from arxiv, Accepted by KDD Ads Track 2026

Item-to-Item (I2I) retrieval is a fundamental part of modern content platforms, supporting critical industrial workflows from recommendation engines to content auditing. While multimodal embedding methods have advanced general retrieval, they often falter in I2I scenarios due to the challenges of balancing global content representation with fine-grained local retrieval, the systemic inefficiency of decoupled embedding-and-ranking pipelines, and the inherent trade-offs between model precision and serving latency. To solve these issues, we propose \textbf{UniNote}, a unified embedding model designed for industrial I2I retrieval. Tailored retrieval strategies are introduced to support representation learning over complex, multimodal content at varying granularities. To operationalize these strategies, UniNote employs a two-stage training paradigm: the first stage leverages contrastive SFT to establish robust base embeddings, while the second stage refines ranking quality through a reinforcement learning (RL) process that aligns the model with content relevance. Our results show that UniNote achieves SOTA performance across diverse I2I tasks. Deployed at Xiaohongshu and integrated with Matryoshka Representation Learning (MRL), UniNote achieved significant improvements in retrieval quality and cost efficiency in large-scale applications.

翻译：项目对项目（I2I）检索是现代内容平台的基础环节，支撑着从推荐引擎到内容审核等关键工业流程。尽管多模态嵌入方法推动了通用检索的进步，但在I2I场景中，由于全局内容表示与细粒度局部检索之间的平衡难题、解耦式嵌入-排序管线的系统性低效问题，以及模型精度与推理延迟之间的固有折衷，这些方法往往表现欠佳。为解决上述问题，我们提出**UniNote**——一种专为工业级I2I检索设计的统一嵌入模型。我们引入定制化检索策略，以支持对复杂多模态内容在不同粒度层面的表示学习。为实现这些策略，UniNote采用两阶段训练范式：第一阶段利用对比监督微调（SFT）建立稳健的基座嵌入；第二阶段通过强化学习（RL）流程优化排序质量，使模型与内容相关性对齐。实验结果表明，UniNote在多种I2I任务中均实现了最先进的性能。该模型已部署于小红书，并与俄罗斯套娃表示学习（MRL）技术集成，在大规模应用中显著提升了检索质量与成本效率。

0

相关内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

15+阅读 · 2025年11月14日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

多模态信息如何嵌入推荐系统？RecSys2021《多模态推荐系统》教程，103页ppt讲述文本、图像与图形多模态信息利用

多模态信息如何嵌入推荐系统？RecSys2021《多模态推荐系统》教程，103页ppt讲述文本、图像与图形多模态信息利用

专知会员服务

96+阅读 · 2021年10月1日

最新《图像到图像转换:方法与应用》综述论文，19页pdf

最新《图像到图像转换:方法与应用》综述论文，19页pdf

专知会员服务

33+阅读 · 2021年1月25日

【SIGIR2020】ACM Fellow-UIUC翟成祥教授：交互式信息检索:模型、算法和评估，182页ppt

【SIGIR2020】ACM Fellow-UIUC翟成祥教授：交互式信息检索:模型、算法和评估，182页ppt

专知会员服务

32+阅读 · 2020年7月28日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

93+阅读 · 2019年12月22日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

Arxiv

0+阅读 · 6月15日

OneRetrieval: Unifying Multi-Branch E-commerce Retrieval with an Editable Generative Model

Arxiv

0+阅读 · 6月11日

LaME: Learning to Think in Latent Space for Multimodal Embedding via Information Bottleneck

Arxiv

0+阅读 · 6月11日

PRInTS: Reward Modeling for Long-Horizon Information Seeking

Arxiv

0+阅读 · 6月9日

UNIVID: Unified Vision-Language Model for Video Moderation

Arxiv

0+阅读 · 6月4日

UniPinRec: Unifying Generative Retrieval and Ranking at Pinterest Scale

Arxiv

0+阅读 · 5月29日

DocRetriever: A Plug-and-Play Framework for Multimodal Document Retrieval with Comprehensive Benchmark

Arxiv

0+阅读 · 5月28日

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Arxiv

0+阅读 · 5月12日

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Arxiv

0+阅读 · 5月6日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

15+阅读 · 2025年11月14日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

多模态信息如何嵌入推荐系统？RecSys2021《多模态推荐系统》教程，103页ppt讲述文本、图像与图形多模态信息利用

多模态信息如何嵌入推荐系统？RecSys2021《多模态推荐系统》教程，103页ppt讲述文本、图像与图形多模态信息利用

专知会员服务

96+阅读 · 2021年10月1日

最新《图像到图像转换:方法与应用》综述论文，19页pdf

最新《图像到图像转换:方法与应用》综述论文，19页pdf

专知会员服务

33+阅读 · 2021年1月25日

【SIGIR2020】ACM Fellow-UIUC翟成祥教授：交互式信息检索:模型、算法和评估，182页ppt

【SIGIR2020】ACM Fellow-UIUC翟成祥教授：交互式信息检索:模型、算法和评估，182页ppt

专知会员服务

32+阅读 · 2020年7月28日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

93+阅读 · 2019年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

相关论文

UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

Arxiv

0+阅读 · 6月15日

OneRetrieval: Unifying Multi-Branch E-commerce Retrieval with an Editable Generative Model

Arxiv

0+阅读 · 6月11日

LaME: Learning to Think in Latent Space for Multimodal Embedding via Information Bottleneck

Arxiv

0+阅读 · 6月11日

PRInTS: Reward Modeling for Long-Horizon Information Seeking

Arxiv

0+阅读 · 6月9日

UNIVID: Unified Vision-Language Model for Video Moderation

Arxiv

0+阅读 · 6月4日

UniPinRec: Unifying Generative Retrieval and Ranking at Pinterest Scale

Arxiv

0+阅读 · 5月29日

DocRetriever: A Plug-and-Play Framework for Multimodal Document Retrieval with Comprehensive Benchmark

Arxiv

0+阅读 · 5月28日

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Arxiv

0+阅读 · 5月12日

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Arxiv

0+阅读 · 5月6日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员