In information retrieval (IR), learning-to-rank (LTR) methods have traditionally limited themselves to discriminative machine learning approaches that model the probability of the document being relevant to the query given some feature representation of the query-document pair. In this work, we propose an alternative denoising diffusion-based deep generative approach to LTR that instead models the full joint distribution over feature vectors and relevance labels. While in the discriminative setting, an over-parameterized ranking model may find different ways to fit the training data, we hypothesize that candidate solutions that can explain the full data distribution under the generative setting are better equipped to estimate relevance. With this motivation, we propose DiffusionRank that extends TabDiff, an existing denoising diffusion-based generative model for tabular datasets, to create generative equivalents of classical discriminative pointwise and pairwise LTR objectives. We conduct thorough empirical evaluation on four standard LTR datasets to demonstrate improvements from DiffusionRank models over their discriminative counterparts. Our work points to a rich space for future research exploration on how we can leverage ongoing advancements in deep generative modeling approaches, such as diffusion, for learning-to-rank in IR.


翻译:在信息检索领域,传统学习排序方法通常局限于判别式机器学习方法,这类方法通过建模查询-文档对的某种特征表示来预测文档与查询的相关性概率。本研究提出一种基于去噪扩散的深度生成式学习排序替代方案,该方案对特征向量与相关性标签的完整联合分布进行建模。在判别式框架下,过参数化的排序模型可能通过不同方式拟合训练数据,我们假设在生成式框架下能够解释完整数据分布的候选解能更有效地估计相关性。基于这一动机,我们提出DiffusionRank模型,将现有表格数据去噪扩散生成模型TabDiff扩展为经典判别式逐点/配对学习排序目标的生成式等价物。通过在四个标准学习排序数据集上的全面实证评估,我们证明了DiffusionRank模型相较于其判别式对应模型的性能提升。本研究为未来探索如何利用扩散等深度生成建模方法在信息检索中实现学习排序开辟了广阔的研究空间。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
专知会员服务
14+阅读 · 2021年3月13日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
推荐 | 基于深度学习的图像语义分割方法回顾(附PDF下载)
机器学习算法与Python学习
25+阅读 · 2017年12月30日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员