Dense retrievers exhibit positional bias, favoring documents whose query-relevant information appears near the beginning and degrading retrieval performance when the information appears later. While prior work on positional bias in dense retrievers has largely focused on architectural explanations, we study how the positional distribution of evidence in training data affects retrieval-level bias direction. To test this, we construct synthetic position-targeted training sets in which query-relevant evidence appears at the beginning, middle, or end of documents, and fine-tune eight architecturally diverse pretrained models under position-skewed and balanced training distributions. At the ranking level, we observe a strong directional pattern across the examined models: skewed training distributions favor evidence at the corresponding positions. Position-balanced training reduces positional sensitivity by 57--87\% on position-aware benchmarks, with competitive mean retrieval performance in our controlled setting. Representation-level analyses further suggest that fine-tuning often reshapes learned positional preferences, although pre-existing architectural or pretraining-specific tendencies persist in some models. These results identify training-position distribution as a major controllable factor in retrieval-level position bias and suggest balanced data curation as a practical mitigation strategy.


翻译:密集检索器表现出位置偏差,倾向于优先检索那些查询相关信息位于文档开头的文档,而当相关信息出现在较后位置时,检索性能则会下降。虽然先前关于密集检索器位置偏差的研究主要聚焦于架构层面的解释,但我们研究了训练数据中证据的位置分布如何影响检索层面的偏差方向。为验证这一点,我们构建了合成的位置定向训练集,其中查询相关证据分别出现在文档的开头、中间或结尾,并在位置偏斜和均衡的训练分布下微调了八个架构各异的预训练模型。在排序层面,我们观察到被考察模型呈现出一致的强方向性模式:偏斜的训练分布倾向于青睐对应位置的证据。位置均衡训练将位置感知基准测试中的位置敏感度降低了57%-87%,同时在我们控制的实验设置中保持了具有竞争力的平均检索性能。表示层面的分析进一步表明,微调通常会重塑习得的位置偏好,尽管在某些模型中,预先存在的架构或预训练特定倾向依然存在。这些结果将训练位置分布识别为检索层面位置偏差的一个主要可控因素,并提出了平衡数据筛选作为一种实用的缓解策略。

0
下载
关闭预览

相关内容

专知会员服务
10+阅读 · 2021年1月31日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
专知会员服务
10+阅读 · 2021年1月31日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员