Prior work reports conflicting results on query diversity in synthetic data generation for dense retrieval. We identify this conflict and design Q-D metrics to quantify diversity's impact, making the problem measurable. Through experiments on 4 benchmark types (31 datasets), we find query diversity especially benefits multi-hop retrieval. Deep analysis on multi-hop data reveals that diversity benefit correlates strongly with query complexity ($r$$\geq$0.95, $p$$<$0.05 in 12/14 conditions), measured by content words (CW). We formalize this as the Complexity-Diversity Principle (CDP): query complexity determines optimal diversity. CDP provides actionable thresholds (CW$>$10: use diversity; CW$<$7: avoid it). Guided by CDP, we propose zero-shot multi-query synthesis for multi-hop tasks, achieving state-of-the-art performance.


翻译:先前研究在稠密检索的合成数据生成中关于查询多样性的影响报告了相互矛盾的结果。我们识别了这一矛盾,并设计了Q-D指标来量化多样性的影响,使该问题可测量。通过对4种基准类型(31个数据集)的实验,我们发现查询多样性尤其有利于多跳检索。对多跳数据的深入分析表明,多样性收益与查询复杂度(由内容词CW衡量)高度相关(在12/14种条件下$r$$\geq$0.95,$p$$<$0.05)。我们将此形式化为复杂度-多样性原则:查询复杂度决定最优多样性。CDP提供了可操作的阈值(CW$>$10时使用多样性;CW$<$7时避免使用)。在CDP的指导下,我们提出了针对多跳任务的零样本多查询合成方法,实现了最先进的性能。

0
下载
关闭预览

相关内容

论学习、公平性与复杂度
专知会员服务
11+阅读 · 2月28日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
专知会员服务
37+阅读 · 2021年4月18日
专知会员服务
62+阅读 · 2021年3月25日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
论文浅尝 | 常识用于回答生成式多跳问题
开放知识图谱
16+阅读 · 2018年11月24日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
6+阅读 · 4月25日
多智能体协作机制
专知会员服务
5+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
8+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
7+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
10+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
8+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关VIP内容
论学习、公平性与复杂度
专知会员服务
11+阅读 · 2月28日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
专知会员服务
37+阅读 · 2021年4月18日
专知会员服务
62+阅读 · 2021年3月25日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员