Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.


翻译:文本嵌入模型被广泛用于语义相似性任务,包括信息检索、聚类和分类。通用模型通常使用对比损失函数通过单阶段或多阶段过程进行训练。我们引入了一种新颖的训练方案,它将模型蒸馏技术与面向特定任务的对比损失相结合,以生成紧凑且高性能的嵌入模型。我们的研究结果表明,对于训练小型模型而言,这种方法比纯对比式或纯基于蒸馏的训练范式更为有效。所得模型 jina-embeddings-v5-text-small 和 jina-embeddings-v5-text-nano 的基准测试分数超过或达到了同类尺寸模型的最先进水平。此外,jina-embeddings-v5-text 模型支持多种语言的长文本(最多达 32k 词元),并能生成在截断和二进制量化下保持鲁棒性的嵌入向量。模型权重已公开,有望推动嵌入模型开发的进一步进展。

0
下载
关闭预览

相关内容

临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月11日
VIP会员
最新内容
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
1+阅读 · 40分钟前
《实现联合作战能力所需的技术》58页报告
专知会员服务
1+阅读 · 58分钟前
以色列运用人工智能优化空袭警报系统
专知会员服务
0+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
1+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
13+阅读 · 4月25日
多智能体协作机制
专知会员服务
12+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
相关VIP内容
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员