In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in $\textbf{2B}$ and $\textbf{8B}$ parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of $\textbf{77.8}$ on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.


翻译:本报告介绍了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列,它们是基于 Qwen3-VL 基础模型构建的 Qwen 家族最新扩展。二者共同提供了一个端到端的高精度多模态搜索流程,通过将文本、图像、文档图像和视频等多种模态映射到一个统一的表示空间中。Qwen3-VL-Embedding 模型采用多阶段训练范式,从大规模对比预训练逐步推进到重排序模型蒸馏,以生成语义丰富的高维向量。它支持 Matryoshka 表示学习,可实现灵活的嵌入维度,并能处理长达 32k 个令牌的输入。作为补充,Qwen3-VL-Reranker 利用带有交叉注意力机制的交叉编码器架构,对查询-文档对进行细粒度相关性估计。两个模型系列均继承了 Qwen3-VL 的多语言能力,支持超过 30 种语言,并以 $\textbf{2B}$ 和 $\textbf{8B}$ 参数规模发布,以适应多样化的部署需求。实证评估表明,Qwen3-VL-Embedding 系列在多种多模态嵌入评估基准测试中均取得了最先进的结果。具体而言,Qwen3-VL-Embedding-8B 在 MMEB-V2 上获得了 $\textbf{77.8}$ 的综合得分,在所有模型中排名第一(截至 2025 年 1 月 8 日)。本报告介绍了该系列的架构、训练方法和实际能力,展示了其在图像-文本检索、视觉问答和视频-文本匹配等多种多模态检索任务上的有效性。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员