TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching - 专知论文

会员服务 ·

0

词元分析器 · 序列 · 最优 · 基线 · 偏好优化 ·

TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching

翻译：TokenRatio：基于比率匹配的原则性Token级偏好优化

Truong Nguyen,Tien-Phat Nguyen,Linh Ngo Van,Duy Minh Ho Nguyen,Khoa Doan,Trung Le

Direct Preference Optimization (DPO) is a widely used RL-free method for aligning language models from pairwise preferences, but it models preferences over full sequences even though generation is driven by per-token decisions. Existing token-level extensions typically decompose a sequence-level Bradley-Terry objective across timesteps, leaving per-prefix (state-wise) optimality implicit. We study how to recover token-level preference optimality using only standard sequence-level pairwise comparisons. We introduce Token-level Bregman Preference Optimization (TBPO), which posits a token-level Bradley-Terry preference model over next-token actions conditioned on the prefix, and derive a Bregman-divergence density-ratio matching objective that generalizes the logistic/DPO loss while preserving the optimal policy induced by the token-level model and maintaining DPO-like simplicity. We introduce two instantiations: TBPO-Q, which explicitly learns a lightweight state baseline, and TBPO-A, which removes the baseline through advantage normalization. Across instruction following, helpfulness/harmlessness, and summarization benchmarks, TBPO improves alignment quality and training stability and increases output diversity relative to strong sequence-level and token-level baselines.

翻译：直接偏好优化（DPO）是一种广泛使用的无强化学习方法，通过成对偏好对齐语言模型，但其在序列层面建模偏好，而文本生成实际上由逐Token决策驱动。现有Token级扩展通常将序列级Bradley-Terry目标沿时间步分解，导致每个前缀（状态级）最优性隐式化。本文研究如何仅利用标准序列级成对比较恢复Token级偏好最优性。我们提出Token级Bregman偏好优化（TBPO），该方法针对以前缀为条件下一Token动作建立Token级Bradley-Terry偏好模型，并推导出基于Bregman散度的密度比匹配目标，该目标在泛化逻辑/DPO损失的同时，保留了Token级模型诱导的最优策略及DPO的简洁性。我们引入两种实例化：TBPO-Q显式学习轻量级状态基线，TBPO-A通过优势归一化去除基线。在指令遵循、有用性/无害性及摘要生成基准测试中，TBPO相对强序列级和Token级基线提升了对齐质量、训练稳定性及输出多样性。

0

相关内容

词元分析器

词元分析器

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【博士论文】多目标奖励与偏好优化：理论与算法

【博士论文】多目标奖励与偏好优化：理论与算法

专知会员服务

32+阅读 · 2025年12月12日

【EMNLP2025】面向大语言模型的权重旋转偏好优化

【EMNLP2025】面向大语言模型的权重旋转偏好优化

专知会员服务

12+阅读 · 2025年8月27日

【ICML2025】组合优化问题中的偏好优化

【ICML2025】组合优化问题中的偏好优化

专知会员服务

12+阅读 · 2025年5月17日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

专知会员服务

24+阅读 · 2022年4月1日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐系统（一）：推荐系统基础

推荐系统（一）：推荐系统基础

菜鸟的机器学习

25+阅读 · 2019年9月2日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于在线消费者购买意向挖掘的个性化推荐研究

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

Direct Preference Optimization for Chatbot Fine-Tuning: An Empirical Study

Arxiv

0+阅读 · 6月12日

TAB-PO: Preference Optimization with a Token-Level Adaptive Barrier for Token-Critical Structured Generation

Arxiv

0+阅读 · 6月10日

Analyzing and Improving Fine-grained Preference Optimization in Medical LVLMs

Arxiv

0+阅读 · 6月10日

Mult-DPO: Multinomial Direct Preference Optimization for Recommender Systems

Arxiv

0+阅读 · 6月8日

DynamicPO: Dynamic Preference Optimization for Recommendation

Arxiv

0+阅读 · 6月6日

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Arxiv

0+阅读 · 5月27日

TPMM-DPO: Trajectory-aware Preference-guided Model Merging for Iterative Direct Preference Optimization

Arxiv

0+阅读 · 5月22日

UNIPO: Unified Interactive Visual Explanation for RL Fine-Tuning Policy Optimization

Arxiv

0+阅读 · 5月12日

DGPO: Beyond Pairwise Preferences with Directional Consistent Groupwise Optimization

Arxiv

0+阅读 · 5月11日

QUIVER: Cost-Aware Adaptive Preference Querying in Surrogate-Assisted Evolutionary Multi-Objective Optimization

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

词元分析器

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 23分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 25分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

2+阅读 · 37分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 48分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 57分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

2+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【博士论文】多目标奖励与偏好优化：理论与算法

【博士论文】多目标奖励与偏好优化：理论与算法

专知会员服务

32+阅读 · 2025年12月12日

【EMNLP2025】面向大语言模型的权重旋转偏好优化

【EMNLP2025】面向大语言模型的权重旋转偏好优化

专知会员服务

12+阅读 · 2025年8月27日

【ICML2025】组合优化问题中的偏好优化

【ICML2025】组合优化问题中的偏好优化

专知会员服务

12+阅读 · 2025年5月17日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

专知会员服务

24+阅读 · 2022年4月1日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐系统（一）：推荐系统基础

推荐系统（一）：推荐系统基础

菜鸟的机器学习

25+阅读 · 2019年9月2日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Direct Preference Optimization for Chatbot Fine-Tuning: An Empirical Study

Arxiv

0+阅读 · 6月12日

TAB-PO: Preference Optimization with a Token-Level Adaptive Barrier for Token-Critical Structured Generation

Arxiv

0+阅读 · 6月10日

Analyzing and Improving Fine-grained Preference Optimization in Medical LVLMs

Arxiv

0+阅读 · 6月10日

Mult-DPO: Multinomial Direct Preference Optimization for Recommender Systems

Arxiv

0+阅读 · 6月8日

DynamicPO: Dynamic Preference Optimization for Recommendation

Arxiv

0+阅读 · 6月6日

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Arxiv

0+阅读 · 5月27日

TPMM-DPO: Trajectory-aware Preference-guided Model Merging for Iterative Direct Preference Optimization

Arxiv

0+阅读 · 5月22日

UNIPO: Unified Interactive Visual Explanation for RL Fine-Tuning Policy Optimization

Arxiv

0+阅读 · 5月12日

DGPO: Beyond Pairwise Preferences with Directional Consistent Groupwise Optimization

Arxiv

0+阅读 · 5月11日

QUIVER: Cost-Aware Adaptive Preference Querying in Surrogate-Assisted Evolutionary Multi-Objective Optimization

Arxiv

0+阅读 · 5月5日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于在线消费者购买意向挖掘的个性化推荐研究

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员