The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training - 专知论文

会员服务 ·

0

多样性 · 多跳 · 合成 · 识别 · 基准 ·

The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

翻译：多查询之智：稠密检索器训练的复杂度-多样性原则

Xincan Feng,Noriki Nishida,Yusuke Sakai,Yuji Matsumoto

from arxiv, Under review

Prior work reports conflicting results on query diversity in synthetic data generation for dense retrieval. We identify this conflict and design Q-D metrics to quantify diversity's impact, making the problem measurable. Through experiments on 4 benchmark types (31 datasets), we find query diversity especially benefits multi-hop retrieval. Deep analysis on multi-hop data reveals that diversity benefit correlates strongly with query complexity ($r$$\geq$0.95, $p$$<$0.05 in 12/14 conditions), measured by content words (CW). We formalize this as the Complexity-Diversity Principle (CDP): query complexity determines optimal diversity. CDP provides actionable thresholds (CW$>$10: use diversity; CW$<$7: avoid it). Guided by CDP, we propose zero-shot multi-query synthesis for multi-hop tasks, achieving state-of-the-art performance.

翻译：先前研究在稠密检索的合成数据生成中关于查询多样性的影响报告了相互矛盾的结果。我们识别了这一矛盾，并设计了Q-D指标来量化多样性的影响，使该问题可测量。通过对4种基准类型（31个数据集）的实验，我们发现查询多样性尤其有利于多跳检索。对多跳数据的深入分析表明，多样性收益与查询复杂度（由内容词CW衡量）高度相关（在12/14种条件下$r$$\geq$0.95，$p$$<$0.05）。我们将此形式化为复杂度-多样性原则：查询复杂度决定最优多样性。CDP提供了可操作的阈值（CW$>$10时使用多样性；CW$<$7时避免使用）。在CDP的指导下，我们提出了针对多跳任务的零样本多查询合成方法，实现了最先进的性能。

0

相关内容

多样性

论学习、公平性与复杂度

论学习、公平性与复杂度

专知会员服务

12+阅读 · 2月28日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

【WWW2024】多模态查询建议：基于人类反馈的多智能体强化学习

【WWW2024】多模态查询建议：基于人类反馈的多智能体强化学习

专知会员服务

22+阅读 · 2024年2月8日

《深度学习多标签学习》最新综述

《深度学习多标签学习》最新综述

专知会员服务

48+阅读 · 2024年1月31日

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

专知会员服务

57+阅读 · 2022年6月11日

WSDM'22「百度」考虑行为多样性的对比元学习

WSDM'22「百度」考虑行为多样性的对比元学习

专知会员服务

24+阅读 · 2022年2月21日

【WWW2021】DGCN:利用图卷积网络进行多样化推荐

专知会员服务

37+阅读 · 2021年4月18日

基于深度学习的跨模态检索综述

专知会员服务

63+阅读 · 2021年3月25日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

论文浅尝 | 常识用于回答生成式多跳问题

论文浅尝 | 常识用于回答生成式多跳问题

开放知识图谱

16+阅读 · 2018年11月24日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

A survey of diversity quantification in natural language processing: The why, what, where and how

Arxiv

0+阅读 · 3月13日

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Arxiv

0+阅读 · 3月4日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

Arxiv

0+阅读 · 2月24日

Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores

Arxiv

0+阅读 · 2月18日

Training Dense Retrievers with Multiple Positive Passages

Arxiv

0+阅读 · 2月13日

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Arxiv

0+阅读 · 2月12日

Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval

Arxiv

0+阅读 · 2月7日

Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval

Arxiv

0+阅读 · 2月3日

Quality-Diversity Optimization as Multi-Objective Optimization

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

0+阅读 · 今天15:20

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

0+阅读 · 今天15:18

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

8+阅读 · 今天5:53

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

4+阅读 · 今天5:45

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

2+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

8+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

10+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

相关VIP内容

论学习、公平性与复杂度

论学习、公平性与复杂度

专知会员服务

12+阅读 · 2月28日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

【WWW2024】多模态查询建议：基于人类反馈的多智能体强化学习

【WWW2024】多模态查询建议：基于人类反馈的多智能体强化学习

专知会员服务

22+阅读 · 2024年2月8日

《深度学习多标签学习》最新综述

《深度学习多标签学习》最新综述

专知会员服务

48+阅读 · 2024年1月31日

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

专知会员服务

57+阅读 · 2022年6月11日

WSDM'22「百度」考虑行为多样性的对比元学习

WSDM'22「百度」考虑行为多样性的对比元学习

专知会员服务

24+阅读 · 2022年2月21日

【WWW2021】DGCN:利用图卷积网络进行多样化推荐

专知会员服务

37+阅读 · 2021年4月18日

基于深度学习的跨模态检索综述

专知会员服务

63+阅读 · 2021年3月25日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

美空军新型反无人机部队初探

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

论文浅尝 | 常识用于回答生成式多跳问题

论文浅尝 | 常识用于回答生成式多跳问题

开放知识图谱

16+阅读 · 2018年11月24日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

A survey of diversity quantification in natural language processing: The why, what, where and how

Arxiv

0+阅读 · 3月13日

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Arxiv

0+阅读 · 3月4日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

Arxiv

0+阅读 · 2月24日

Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores

Arxiv

0+阅读 · 2月18日

Training Dense Retrievers with Multiple Positive Passages

Arxiv

0+阅读 · 2月13日

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Arxiv

0+阅读 · 2月12日

Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval

Arxiv

0+阅读 · 2月7日

Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval

Arxiv

0+阅读 · 2月3日

Quality-Diversity Optimization as Multi-Objective Optimization

Arxiv

0+阅读 · 1月31日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员