MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model - 专知论文

会员服务 ·

0

模态 · 多模 · 嵌入 · 多模态 · 表示 ·

MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model

翻译：MuCo：用于多模态嵌入模型的多轮对比学习

Geonmo Gu,Byeongho Heo,Jaemyung Yu,Jaehui Hwang,Taekyung Kim,Sangmin Lee,HeeJae Jun,Yoohoon Kang,Sangdoo Yun,Dongyoon Han

from arxiv, 22 pages

Universal Multimodal embedding models built on Multimodal Large Language Models (MLLMs) have traditionally employed contrastive learning, which aligns representations of query-target pairs across different modalities. Yet, despite its empirical success, they are primarily built on a "single-turn" formulation where each query-target pair is treated as an independent data point. This paradigm leads to computational inefficiency when scaling, as it requires a separate forward pass for each pair and overlooks potential contextual relationships between multiple queries that can relate to the same context. In this work, we introduce Multi-Turn Contrastive Learning (MuCo), a dialogue-inspired framework that revisits this process. MuCo leverages the conversational nature of MLLMs to process multiple, related query-target pairs associated with a single image within a single forward pass. This allows us to extract a set of multiple query and target embeddings simultaneously, conditioned on a shared context representation, amplifying the effective batch size and overall training efficiency. Experiments exhibit MuCo with a newly curated 5M multimodal multi-turn dataset (M3T), which yields state-of-the-art retrieval performance on MMEB and M-BEIR benchmarks, while markedly enhancing both training efficiency and representation coherence across modalities. Code and M3T are available at https://github.com/naver-ai/muco

翻译：基于多模态大语言模型（MLLMs）构建的通用多模态嵌入模型传统上采用对比学习，该方法旨在对齐不同模态间查询-目标对的表示。然而，尽管其在经验上取得了成功，这些模型主要建立在“单轮”范式之上，即每个查询-目标对被视作独立的数据点。这种范式在扩展时会导致计算效率低下，因为它需要为每一对进行单独的前向传播，并且忽略了多个可能与同一上下文相关的查询之间潜在的上下文关系。在本工作中，我们引入了多轮对比学习（MuCo），这是一个受对话启发的框架，重新审视了这一过程。MuCo利用MLLMs的对话特性，在单次前向传播中处理与单张图像相关的多个、相互关联的查询-目标对。这使得我们能够同时提取一组多个查询和目标嵌入，这些嵌入以共享的上下文表示为条件，从而放大了有效批处理大小并提升了整体训练效率。实验展示了MuCo配合一个新构建的包含500万样本的多模态多轮数据集（M3T）的效果，该模型在MMEB和M-BEIR基准测试中取得了最先进的检索性能，同时显著提升了训练效率以及跨模态的表示一致性。代码与M3T数据集发布于 https://github.com/naver-ai/muco

0

相关内容

【NeurIPS 2025】以语言为中心的全模态表征学习的可扩展性研究

【NeurIPS 2025】以语言为中心的全模态表征学习的可扩展性研究

专知会员服务

14+阅读 · 2025年10月14日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

专知会员服务

32+阅读 · 2024年5月26日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

专知会员服务

67+阅读 · 2023年2月5日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

LLMTrack: Semantic Multi-Object Tracking with Multi-modal Large Language Models

Arxiv

0+阅读 · 3月12日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality

Arxiv

0+阅读 · 3月2日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

From Generator to Embedder: Harnessing Innate Abilities of Multimodal LLMs via Building Zero-Shot Discriminative Embedding Model

Arxiv

0+阅读 · 2月27日

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

Arxiv

0+阅读 · 2月23日

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

Arxiv

0+阅读 · 2月17日

U-MARVEL: Unveiling Key Factors for Universal Multimodal Retrieval via Embedding Learning with MLLMs

Arxiv

0+阅读 · 2月15日

Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

Arxiv

0+阅读 · 2月14日

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention

Arxiv

0+阅读 · 2月7日

VIP会员

文章信息

相关主题

最新内容

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

3+阅读 · 今天14:33

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

2+阅读 · 今天14:32

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

9+阅读 · 今天7:05

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

6+阅读 · 今天6:51

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

5+阅读 · 今天6:43

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

专知会员服务

4+阅读 · 今天6:40

《美军条令：作战伤员后送保障》

《美军条令：作战伤员后送保障》

专知会员服务

4+阅读 · 今天6:38

《美空军条令出版物 4-0，维持》

《美空军条令出版物 4-0，维持》

专知会员服务

4+阅读 · 今天6:32

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天6:30

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

专知会员服务

3+阅读 · 今天6:25

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

专知会员服务

4+阅读 · 今天6:24

《基于仿真的空军任务规划优化》

《基于仿真的空军任务规划优化》

专知会员服务

4+阅读 · 今天6:21

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

专知会员服务

3+阅读 · 今天6:17

《基于语义分割与深度强化学习的战场环境战术路径规划》

《基于语义分割与深度强化学习的战场环境战术路径规划》

专知会员服务

5+阅读 · 今天6:14

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

专知会员服务

5+阅读 · 6月8日

相关VIP内容

【NeurIPS 2025】以语言为中心的全模态表征学习的可扩展性研究

【NeurIPS 2025】以语言为中心的全模态表征学习的可扩展性研究

专知会员服务

14+阅读 · 2025年10月14日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

专知会员服务

32+阅读 · 2024年5月26日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

专知会员服务

67+阅读 · 2023年2月5日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

【剑桥博士论文】智能体-环境协同优化

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

相关论文

LLMTrack: Semantic Multi-Object Tracking with Multi-modal Large Language Models

Arxiv

0+阅读 · 3月12日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality

Arxiv

0+阅读 · 3月2日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

From Generator to Embedder: Harnessing Innate Abilities of Multimodal LLMs via Building Zero-Shot Discriminative Embedding Model

Arxiv

0+阅读 · 2月27日

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

Arxiv

0+阅读 · 2月23日

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

Arxiv

0+阅读 · 2月17日

U-MARVEL: Unveiling Key Factors for Universal Multimodal Retrieval via Embedding Learning with MLLMs

Arxiv

0+阅读 · 2月15日

Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

Arxiv

0+阅读 · 2月14日

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention

Arxiv

0+阅读 · 2月7日

相关基金

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员