Discrete Adjoint Matching - 专知论文

会员服务 ·

0

离散 · DAM · 生成模型 · 状态空间 · 微调 ·

Discrete Adjoint Matching

翻译：离散伴随匹配

Oswin So,Brian Karrer,Chuchu Fan,Ricky T. Q. Chen,Guan-Horng Liu

from arxiv, ICLR 2026

Computation methods for solving entropy-regularized reward optimization -- a class of problems widely used for fine-tuning generative models -- have advanced rapidly. Among those, Adjoint Matching (AM, Domingo-Enrich et al., 2025) has proven highly effective in continuous state spaces with differentiable rewards. Transferring these practical successes to discrete generative modeling, however, remains particularly challenging and largely unexplored, mainly due to the drastic shift in generative model classes to discrete state spaces, which are nowhere differentiable. In this work, we propose Discrete Adjoint Matching (DAM) -- a discrete variant of AM for fine-tuning discrete generative models characterized by Continuous-Time Markov Chains, such as diffusion-based large language models. The core of DAM is the introduction of discrete adjoint-an estimator of the optimal solution to the original problem but formulated on discrete domains-from which standard matching frameworks can be applied. This is derived via a purely statistical standpoint, in contrast to the control-theoretic viewpoint in AM, thereby opening up new algorithmic opportunities for general adjoint-based estimators. We showcase DAM's effectiveness on synthetic and mathematical reasoning tasks.

翻译：求解熵正则化奖励优化的计算方法——这是一类广泛用于微调生成模型的问题——近年来发展迅速。其中，伴随匹配（AM，Domen-go-Enrich等人，2025年）已在具有可微奖励的连续状态空间中证明了其高效性。然而，将这些实际成功迁移到离散生成建模中仍然极具挑战性且很大程度上未被探索，这主要是由于生成模型类别转向了无处可微的离散状态空间。在本工作中，我们提出了离散伴随匹配（DAM）——AM的一种离散变体，用于微调以连续时间马尔可夫链为特征的离散生成模型，例如基于扩散的大语言模型。DAM的核心是引入了离散伴随——原始问题最优解的一个估计量，但建立在离散域上——从而可以应用标准的匹配框架。这是从一个纯粹的统计学角度推导出来的，与AM中的控制论视角形成对比，从而为基于伴随的一般估计量开辟了新的算法可能性。我们在合成任务和数学推理任务上展示了DAM的有效性。

0

相关内容

【博士论文】在离线、在线和策略设置下通过对偶性进行的近似

【博士论文】在离线、在线和策略设置下通过对偶性进行的近似

专知会员服务

10+阅读 · 2月25日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

【CVPR2024】扩散模型的结构指导对抗训练

【CVPR2024】扩散模型的结构指导对抗训练

专知会员服务

27+阅读 · 2024年2月28日

《在互补战场上进行多场战斗》

《在互补战场上进行多场战斗》

专知会员服务

18+阅读 · 2024年1月20日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

神经模型中组合求解器和离散分布的集成，77页ppt

神经模型中组合求解器和离散分布的集成，77页ppt

专知会员服务

23+阅读 · 2022年12月30日

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【CVPR2020-北交】图匹配组合求解器，Learning Combinatorial Solver GM

【CVPR2020-北交】图匹配组合求解器，Learning Combinatorial Solver GM

专知会员服务

28+阅读 · 2020年4月11日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

「中国法研杯」相似案例匹配竞赛结果出炉，冠军方案关键技术解读

「中国法研杯」相似案例匹配竞赛结果出炉，冠军方案关键技术解读

AI科技评论

17+阅读 · 2019年10月28日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

随机耦合振子的逼近

国家自然科学基金

0+阅读 · 2014年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

复杂生产环境下的随机客户订单调度问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

Matching with Committee Preferences

Arxiv

0+阅读 · 3月3日

Branched Schrödinger Bridge Matching

Arxiv

0+阅读 · 3月2日

Active Flow Matching

Arxiv

0+阅读 · 3月1日

Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

Arxiv

0+阅读 · 2月20日

Variational Grey-Box Dynamics Matching

Arxiv

0+阅读 · 2月19日

Differentially Private Matchings

Arxiv

0+阅读 · 2月16日

Flow Matching from Viewpoint of Proximal Operators

Arxiv

0+阅读 · 2月13日

Discrete Adjoint Schrödinger Bridge Sampler

Arxiv

0+阅读 · 2月9日

Action-to-Action Flow Matching

Arxiv

0+阅读 · 2月7日

Efficient Perplexity Bound and Ratio Matching in Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

7+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

9+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

【博士论文】在离线、在线和策略设置下通过对偶性进行的近似

【博士论文】在离线、在线和策略设置下通过对偶性进行的近似

专知会员服务

10+阅读 · 2月25日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

【CVPR2024】扩散模型的结构指导对抗训练

【CVPR2024】扩散模型的结构指导对抗训练

专知会员服务

27+阅读 · 2024年2月28日

《在互补战场上进行多场战斗》

《在互补战场上进行多场战斗》

专知会员服务

18+阅读 · 2024年1月20日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

神经模型中组合求解器和离散分布的集成，77页ppt

神经模型中组合求解器和离散分布的集成，77页ppt

专知会员服务

23+阅读 · 2022年12月30日

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【CVPR2020-北交】图匹配组合求解器，Learning Combinatorial Solver GM

【CVPR2020-北交】图匹配组合求解器，Learning Combinatorial Solver GM

专知会员服务

28+阅读 · 2020年4月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

「中国法研杯」相似案例匹配竞赛结果出炉，冠军方案关键技术解读

「中国法研杯」相似案例匹配竞赛结果出炉，冠军方案关键技术解读

AI科技评论

17+阅读 · 2019年10月28日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

相关论文

Matching with Committee Preferences

Arxiv

0+阅读 · 3月3日

Branched Schrödinger Bridge Matching

Arxiv

0+阅读 · 3月2日

Active Flow Matching

Arxiv

0+阅读 · 3月1日

Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

Arxiv

0+阅读 · 2月20日

Variational Grey-Box Dynamics Matching

Arxiv

0+阅读 · 2月19日

Differentially Private Matchings

Arxiv

0+阅读 · 2月16日

Flow Matching from Viewpoint of Proximal Operators

Arxiv

0+阅读 · 2月13日

Discrete Adjoint Schrödinger Bridge Sampler

Arxiv

0+阅读 · 2月9日

Action-to-Action Flow Matching

Arxiv

0+阅读 · 2月7日

Efficient Perplexity Bound and Ratio Matching in Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月6日

相关基金

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

随机耦合振子的逼近

国家自然科学基金

0+阅读 · 2014年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

复杂生产环境下的随机客户订单调度问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员