Prior work reports conflicting results on query diversity in synthetic data generation for dense retrieval. We identify this conflict and design Q-D metrics to quantify diversity's impact, making the problem measurable. Through experiments on 4 benchmark types (31 datasets), we find query diversity especially benefits multi-hop retrieval. Deep analysis on multi-hop data reveals that diversity benefit correlates strongly with query complexity ($r$$\geq$0.95, $p$$<$0.05 in 12/14 conditions), measured by content words (CW). We formalize this as the Complexity-Diversity Principle (CDP): query complexity determines optimal diversity. CDP provides actionable thresholds (CW$>$10: use diversity; CW$<$7: avoid it). Guided by CDP, we propose zero-shot multi-query synthesis for multi-hop tasks, achieving state-of-the-art performance.


翻译:先前研究在稠密检索的合成数据生成中关于查询多样性的影响报告了相互矛盾的结果。我们识别了这一矛盾,并设计了Q-D指标来量化多样性的影响,使该问题可测量。通过对4种基准类型(31个数据集)的实验,我们发现查询多样性尤其有利于多跳检索。对多跳数据的深入分析表明,多样性收益与查询复杂度(由内容词CW衡量)高度相关(在12/14种条件下$r$$\geq$0.95,$p$$<$0.05)。我们将此形式化为复杂度-多样性原则:查询复杂度决定最优多样性。CDP提供了可操作的阈值(CW$>$10时使用多样性;CW$<$7时避免使用)。在CDP的指导下,我们提出了针对多跳任务的零样本多查询合成方法,实现了最先进的性能。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
专知会员服务
37+阅读 · 2021年4月18日
专知会员服务
62+阅读 · 2021年3月25日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
论文浅尝 | 常识用于回答生成式多跳问题
开放知识图谱
16+阅读 · 2018年11月24日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月29日
VIP会员
相关VIP内容
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
专知会员服务
37+阅读 · 2021年4月18日
专知会员服务
62+阅读 · 2021年3月25日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员