基于第一性原理重审Judge Decoding：一种免训练的分布散度方法 (Revisiting Judge Decoding from First Principles via Training-Free Distributional Divergence) - 专知论文

会员服务 ·

0

散度 · 解码 · 第一性原理 · 监督 · 噪声 ·

Revisiting Judge Decoding from First Principles via Training-Free Distributional Divergence

翻译：基于第一性原理重审Judge Decoding：一种免训练的分布散度方法

Shengyin Sun,Yiming Li,Renxi Liu,Weizhe Lin,Hui-Ling Zhen,Xianzhi Yu,Mingxuan Yuan,Chen Ma

from arxiv, 16 pages

Judge Decoding accelerates LLM inference by relaxing the strict verification of Speculative Decoding, yet it typically relies on expensive and noisy supervision. In this work, we revisit this paradigm from first principles, revealing that the ``criticality'' scores learned via costly supervision are intrinsically encoded in the draft-target distributional divergence. We theoretically prove a structural correspondence between learned linear judges and Kullback-Leibler (KL) divergence, demonstrating they rely on the same underlying logit primitives. Guided by this, we propose a simple, training-free verification mechanism based on KL divergence. Extensive experiments across reasoning and coding benchmarks show that our method matches or outperforms complex trained judges (e.g., AutoJudge), offering superior robustness to domain shifts and eliminating the supervision bottleneck entirely.

翻译：Judge Decoding通过放宽Speculative Decoding的严格验证机制来加速大语言模型推理，但其通常依赖昂贵且带噪声的监督信号。本研究从第一性原理重新审视该范式，揭示通过高成本监督习得的“关键性”评分本质上编码于草稿模型与目标模型的分布散度中。我们理论证明了线性学习型judge与Kullback-Leibler（KL）散度间的结构对应关系，表明二者依赖相同的底层logit基元。基于此发现，我们提出一种基于KL散度的简单免训练验证机制。在推理与代码生成基准上的大量实验表明，该方法在性能上匹配甚至超越复杂训练型judge（如AutoJudge），对领域偏移具有更强的鲁棒性，并彻底消除了监督学习的瓶颈。

0

相关内容

东南大学等最新《自监督学习》最新进展，26页pdf356篇文献阐述自监督学习算法、理论与应用

东南大学等最新《自监督学习》最新进展，26页pdf356篇文献阐述自监督学习算法、理论与应用

专知会员服务

68+阅读 · 2023年1月20日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

专知会员服务

36+阅读 · 2020年3月13日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

22+阅读 · 2020年1月15日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【经典书】概率论基础教程，A First Course in Probability，545页pdf

【经典书】概率论基础教程，A First Course in Probability，545页pdf

专知

21+阅读 · 2021年3月24日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

开放知识图谱

12+阅读 · 2019年5月26日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

一文带你读懂 DeconvNet 上采样层（语义分割）

一文带你读懂 DeconvNet 上采样层（语义分割）

AI研习社

26+阅读 · 2019年3月16日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于广义强度分布理论的小子样可靠性分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging

Arxiv

0+阅读 · 2月3日

DART: Diffusion-Inspired Speculative Decoding for Fast LLM Inference

Arxiv

0+阅读 · 1月27日

Principled Coarse-Grained Acceptance for Speculative Decoding in Speech

Arxiv

0+阅读 · 1月22日

Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning

Arxiv

0+阅读 · 1月19日

JudgeAgent: Beyond Static Benchmarks for Knowledge-Driven and Dynamic LLM Evaluation

Arxiv

0+阅读 · 1月15日

Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification

Arxiv

0+阅读 · 1月14日

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

Arxiv

0+阅读 · 1月13日

Silence the Judge: Reinforcement Learning with Self-Verifier via Latent Geometric Clustering

Arxiv

0+阅读 · 1月13日

Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning

Arxiv

0+阅读 · 1月12日

Re-Rankers as Relevance Judges

Arxiv

0+阅读 · 1月8日

VIP会员

文章信息

相关主题

第一性原理

相关VIP内容

东南大学等最新《自监督学习》最新进展，26页pdf356篇文献阐述自监督学习算法、理论与应用

东南大学等最新《自监督学习》最新进展，26页pdf356篇文献阐述自监督学习算法、理论与应用

专知会员服务

68+阅读 · 2023年1月20日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

专知会员服务

36+阅读 · 2020年3月13日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

22+阅读 · 2020年1月15日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【经典书】概率论基础教程，A First Course in Probability，545页pdf

【经典书】概率论基础教程，A First Course in Probability，545页pdf

专知

21+阅读 · 2021年3月24日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

开放知识图谱

12+阅读 · 2019年5月26日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

一文带你读懂 DeconvNet 上采样层（语义分割）

一文带你读懂 DeconvNet 上采样层（语义分割）

AI研习社

26+阅读 · 2019年3月16日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging

Arxiv

0+阅读 · 2月3日

DART: Diffusion-Inspired Speculative Decoding for Fast LLM Inference

Arxiv

0+阅读 · 1月27日

Principled Coarse-Grained Acceptance for Speculative Decoding in Speech

Arxiv

0+阅读 · 1月22日

Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning

Arxiv

0+阅读 · 1月19日

JudgeAgent: Beyond Static Benchmarks for Knowledge-Driven and Dynamic LLM Evaluation

Arxiv

0+阅读 · 1月15日

Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification

Arxiv

0+阅读 · 1月14日

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

Arxiv

0+阅读 · 1月13日

Silence the Judge: Reinforcement Learning with Self-Verifier via Latent Geometric Clustering

Arxiv

0+阅读 · 1月13日

Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning

Arxiv

0+阅读 · 1月12日

Re-Rankers as Relevance Judges

Arxiv

0+阅读 · 1月8日

相关基金

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于广义强度分布理论的小子样可靠性分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员