Learning-to-rank (LTR) methods have traditionally been limited to discriminative machine learning approaches that model the probability of the document being relevant to the query given some feature representation of the query-document pair. We propose an alternative denoising diffusion-based generative approach to LTR that instead models the full joint distribution over features and relevance labels. While in discriminative LTR, an over-parameterized ranking model may find different ways to fit the training data, we posit that candidate solutions that can explain the full data distribution under the generative setting maybe better at estimating relevance. Thus, we propose DiffusionRank that extends TabDiff, an existing diffusion model for tabular datasets, to create generative alternatives to classical discriminative pointwise and pairwise LTR objectives. Our work demonstrates improvements from DiffusionRank over discriminative counterparts on four standard LTR datasets and points to a rich space for future exploration to leverage ongoing advancements in deep generative models for LTR. Our code is publicly available at https://github.com/sadjadeb/DiffusionRank.


翻译:学习排序方法(LTR)传统上局限于判别式机器学习方法,这类方法通过查询-文档对的特征表示来建模文档与查询相关性的概率。我们提出了一种基于去噪扩散的生成式替代方案来构建LTR模型,该方案直接对特征与相关性标签的完整联合分布进行建模。在判别式LTR中,过参数化的排序模型可能以不同方式拟合训练数据,而我们假设在生成式框架下能够解释完整数据分布的候选解可能更擅长评估相关性。为此,我们提出DiffusionRank方法,将现有表格数据扩散模型TabDiff扩展为经典判别式逐点与逐对LTR目标的生成式替代方案。实验表明,在四个标准LTR数据集上,DiffusionRank相较于判别式对应方法取得了性能提升,并为利用深度生成模型在LTR领域的最新进展开辟了丰富的探索空间。我们的代码已开源在https://github.com/sadjadeb/DiffusionRank。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
【牛津博士论文】序列机器学习的应用与方法论,137页pdf
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
【牛津博士论文】序列机器学习的应用与方法论,137页pdf
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员