GRACE：基于判别器引导的思维链推理 (GRACE: Discriminator-Guided Chain-of-Thought Reasoning) - 专知论文

会员服务 ·

0

判别器 · 解码 · 思维链推理 · 正确性 · 思维链 ·

GRACE: Discriminator-Guided Chain-of-Thought Reasoning

翻译：GRACE：基于判别器引导的思维链推理

Muhammad Khalifa,Lajanugen Logeswaran,Moontae Lee,Honglak Lee,Lu Wang

from arxiv, Fixed typos

In the context of multi-step reasoning, e.g., with chain-of-thought, language models (LMs) can easily assign a high likelihood to incorrect steps. As a result, decoding strategies that optimize for solution likelihood often yield incorrect solutions. To address this issue, we propose Guiding chain-of-thought ReAsoning with a CorrectnEss Discriminator (GRACE), a stepwise decoding approach that steers the decoding process towards producing correct reasoning steps. GRACE employs a step-level verifier or discriminator trained with a contrastive loss over correct and incorrect steps, which is used during decoding to score next-step candidates based on their correctness. Importantly, GRACE only requires sampling from the LM, without the need for LM training or fine-tuning. Using models from FLAN-T5 and LLaMA families, we evaluate GRACE over four math and two symbolic reasoning tasks, where it exhibits substantial performance gains compared to greedy decoding, verifiers, and self-consistency in most settings. When further combined with self-consistency, GRACE outperforms all the baselines by sizeable margins. Human and LLM evaluations over GSM8K show that GRACE not only improves the final answer accuracy but also the correctness of the intermediate reasoning. Our implementation can be accessed at https://github.com/mukhal/grace.

翻译：在多步推理（例如思维链）的语境中，语言模型（LMs）很容易为错误的推理步骤分配高似然概率。因此，优化解似然概率的解码策略常常产生错误解。为解决此问题，我们提出了一种基于正确性判别器引导的思维链推理（GRACE）方法，这是一种逐步解码方法，旨在引导解码过程生成正确的推理步骤。GRACE采用一个经过对比损失（基于正确与错误步骤）训练的步级验证器或判别器，该判别器在解码过程中用于根据正确性对候选下一步进行评分。重要的是，GRACE仅需对语言模型进行采样，无需语言模型的训练或微调。使用FLAN-T5和LLaMA系列模型，我们在四个数学和两个符号推理任务上评估GRACE，结果显示在大多数设置中，相比贪婪解码、验证器和自洽性方法，GRACE均表现出显著的性能提升。当进一步与自洽性结合时，GRACE以相当大的优势超越了所有基线方法。在GSM8K上的人工和LLM评估表明，GRACE不仅提高了最终答案的准确性，也改善了中间推理的正确性。我们的实现可访问 https://github.com/mukhal/grace。

0

相关内容

判别器

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

《潜在推理综述》

《潜在推理综述》

专知会员服务

21+阅读 · 2025年7月9日

超越语言的推理：潜在思维链推理的综合综述

超越语言的推理：潜在思维链推理的综合综述

专知会员服务

22+阅读 · 2025年5月23日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

AI进入推理模型时代，一文带你读懂思维链

AI进入推理模型时代，一文带你读懂思维链

专知会员服务

39+阅读 · 2025年3月17日

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

专知会员服务

31+阅读 · 2024年8月3日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

哈佛大学Miguel Hernan科学家最新2019年《因果推断:概念与方法》书稿终版，280页讲解因果效应（附下载）

哈佛大学Miguel Hernan科学家最新2019年《因果推断:概念与方法》书稿终版，280页讲解因果效应（附下载）

专知

77+阅读 · 2019年1月3日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States

Arxiv

0+阅读 · 2月4日

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Arxiv

0+阅读 · 2月2日

ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Arxiv

0+阅读 · 1月30日

Explainable Chain-of-Thought Reasoning: An Empirical Analysis on State-Aware Reasoning Dynamics

Arxiv

0+阅读 · 1月29日

GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning

Arxiv

0+阅读 · 1月28日

CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction

Arxiv

0+阅读 · 1月24日

GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients

Arxiv

0+阅读 · 1月20日

GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients

Arxiv

0+阅读 · 1月15日

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Arxiv

0+阅读 · 1月8日

VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

思维链推理

相关VIP内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

《潜在推理综述》

《潜在推理综述》

专知会员服务

21+阅读 · 2025年7月9日

超越语言的推理：潜在思维链推理的综合综述

超越语言的推理：潜在思维链推理的综合综述

专知会员服务

22+阅读 · 2025年5月23日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

AI进入推理模型时代，一文带你读懂思维链

AI进入推理模型时代，一文带你读懂思维链

专知会员服务

39+阅读 · 2025年3月17日

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

专知会员服务

31+阅读 · 2024年8月3日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

哈佛大学Miguel Hernan科学家最新2019年《因果推断:概念与方法》书稿终版，280页讲解因果效应（附下载）

哈佛大学Miguel Hernan科学家最新2019年《因果推断:概念与方法》书稿终版，280页讲解因果效应（附下载）

专知

77+阅读 · 2019年1月3日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States

Arxiv

0+阅读 · 2月4日

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Arxiv

0+阅读 · 2月2日

ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Arxiv

0+阅读 · 1月30日

Explainable Chain-of-Thought Reasoning: An Empirical Analysis on State-Aware Reasoning Dynamics

Arxiv

0+阅读 · 1月29日

GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning

Arxiv

0+阅读 · 1月28日

CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction

Arxiv

0+阅读 · 1月24日

GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients

Arxiv

0+阅读 · 1月20日

GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients

Arxiv

0+阅读 · 1月15日

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Arxiv

0+阅读 · 1月8日

VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning

Arxiv

0+阅读 · 1月7日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员