Direct preference optimization (DPO) is a simple and effective alignment strategy for large language models (LLMs) based on pairwise preferences. In recommender systems, however, user feedback is rarely pairwise. For a given context, e.g., a user, a session, or a conversation, we typically observe set-wise preferences with multiple positive items, where every positive item should outrank every unobserved or explicitly negative item, with no prescribed order among the positives or the negatives themselves. A natural generalization is to use the Plackett-Luce (PL) reward model, which extends the Bradley-Terry reward model underlying vanilla DPO from pairwise preferences to full rankings of candidates. However, we show that adapting the PL model to set-wise preferences requires marginalizing over all positive orderings, where the resulting expression is combinatorial in complexity. To address this fundamental challenge, we propose Mult-DPO, a novel DPO objective with a tractable multinomial surrogate likelihood over set-wise preference events for the user-preference alignment of LLM-based recommender systems. The multinomial construction is not itself a ranking distribution, but it is defined on the same reward-induced weight space and admits a closed-form DPO-style objective, enabling direct alignment of LLMs with multiple candidates through a classification-style objective. In addition, we prove that the multinomial DPO loss is a tractable upper bound on the marginalized PL DPO loss when optimizing against the set-wise preference data. We further characterize the tightness of this bound in terms of the relative total weight of positives versus negatives, which provides insights into tightening the bound with richer or harder negatives. Finally, we extend Mult-DPO to the alignment of LLMs with multiple preference levels. Code is available at https://github.com/yaochenzhu/Mult_DPO


翻译:直接偏好优化(DPO)是一种基于成对偏好、对大型语言模型(LLM)进行对齐的简单且有效的策略。然而在推荐系统中,用户反馈很少是成对的。对于给定情境(例如用户、会话或对话),我们通常观察到包含多个正向项目的集合级偏好,其中每个正向项目应优于所有未观测到或明确负向的项目,而正向项目之间或负向项目之间本身没有规定顺序。一种自然的泛化方法是使用Plackett-Luce(PL)奖励模型,该模型将原始DPO所依赖的Bradley-Terry奖励模型从成对偏好扩展为候选者的完整排序。然而,我们表明,将PL模型适配到集合级偏好需要对所有正向排列进行边缘化,由此得到的表达式在复杂度上具有组合爆炸性。针对这一根本性挑战,我们提出Mult-DPO,这是一种新颖的DPO目标函数,其在集合级偏好事件上采用可计算的多项式替代似然,用于基于LLM的推荐系统中的用户偏好对齐。多项式构造本身并非排序分布,但它定义在相同的奖励诱导权重空间上,并具有闭式DPO风格的目标函数,从而能够通过分类风格的目标函数直接对齐LLM与多个候选项目。此外,我们证明,在优化集合级偏好数据时,多项式DPO损失是对边缘化PL DPO损失的可计算上界。我们进一步刻画了该界在正向与负向项目相对总权重方面的紧致性,这为通过更丰富或更难的负向项目来收紧该界提供了洞见。最后,我们将Mult-DPO扩展到具有多个偏好等级的LLM对齐。代码可在https:// github.com/yaochenzhu/Mult_DPO获取。

0
下载
关闭预览

相关内容

【EMNLP2025】面向大语言模型的权重旋转偏好优化
专知会员服务
12+阅读 · 2025年8月27日
多模态推荐系统综述:近期进展与未来方向
专知会员服务
38+阅读 · 2025年2月27日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
直接偏好优化中的数据集、理论、变体和应用的综合综述
专知会员服务
15+阅读 · 2024年10月24日
专知会员服务
37+阅读 · 2021年4月18日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
初学者系列:推荐系统Wide & Deep Learning详解
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员