InjectRBP: Steering Large Language Model Reasoning Behavior via Pattern Injection - 专知论文

会员服务 ·

0

行为模式 · 语言模型 · 大语言模型 · 系统 · 分析 ·

InjectRBP: Steering Large Language Model Reasoning Behavior via Pattern Injection

翻译：InjectRBP：通过模式注入引导大语言模型的推理行为

Xiuping Wu,Zhao Yu,Yuxin Cheng,Ngai Wong,Liangjun Ke,Tapas Mishra,Konstantinos V. Katsikopoulos

Reasoning can significantly enhance the performance of Large Language Models. While recent studies have exploited behavior-related prompts adjustment to enhance reasoning, these designs remain largely intuitive and lack a systematic analysis of the underlying behavioral patterns. Motivated by this, we investigate how models' reasoning behaviors shape reasoning from the perspective of behavioral patterns. We observe that models exhibit adaptive distributions of reasoning behaviors when responding to specific types of questions, and that structurally injecting these patterns can substantially influence the quality of the models' reasoning processes and outcomes. Building on these findings, we propose two optimization methods that require no parameter updates: InjectCorrect and InjectRLOpt. InjectCorrect guides the model by imitating behavioral patterns derived from its own past correct answers. InjectRLOpt learns a value function from historical behavior-pattern data and, via our proposed Reliability-Aware Softmax Policy, generates behavioral injectant during inference to steer the reasoning process. Our experiments demonstrate that both methods can improve model performance across various reasoning tasks without requiring any modifications to model parameters, achieving gains of up to 5.34% and 8.67%, respectively.

翻译：推理能力能够显著提升大语言模型的性能。尽管近期研究通过调整与行为相关的提示来增强推理，但这些设计在很大程度上仍依赖直觉，缺乏对底层行为模式的系统性分析。受此启发，我们从行为模式的角度探究模型的推理行为如何塑造其推理过程。我们观察到，模型在回答特定类型问题时展现出适应性的推理行为分布，并且结构化地注入这些模式能够显著影响模型推理过程及结果的质量。基于这些发现，我们提出了两种无需参数更新的优化方法：InjectCorrect 与 InjectRLOpt。InjectCorrect 通过模仿模型自身历史正确答案所衍生的行为模式来引导模型。InjectRLOpt 则从历史行为模式数据中学习一个价值函数，并通过我们提出的可靠性感知软最大值策略，在推理过程中生成行为注入剂以引导推理流程。实验表明，两种方法均能在不修改模型参数的情况下，提升模型在多种推理任务上的性能，分别取得了最高 5.34% 和 8.67% 的性能增益。

0

相关内容

行为模式

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

34+阅读 · 1月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

25+阅读 · 2025年11月19日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

38+阅读 · 2025年4月20日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Arxiv

0+阅读 · 3月10日

Abductive Reasoning with Syllogistic Forms in Large Language Models

Arxiv

0+阅读 · 3月6日

SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

Arxiv

0+阅读 · 2月23日

Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach

Arxiv

0+阅读 · 2月9日

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

Arxiv

0+阅读 · 2月8日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

Think-Augmented Function Calling: Improving LLM Parameter Accuracy Through Embedded Reasoning

Arxiv

0+阅读 · 2月6日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

Probing the Trajectories of Reasoning Traces in Large Language Models

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

8+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

9+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

34+阅读 · 1月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

25+阅读 · 2025年11月19日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

38+阅读 · 2025年4月20日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Arxiv

0+阅读 · 3月10日

Abductive Reasoning with Syllogistic Forms in Large Language Models

Arxiv

0+阅读 · 3月6日

SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

Arxiv

0+阅读 · 2月23日

Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach

Arxiv

0+阅读 · 2月9日

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

Arxiv

0+阅读 · 2月8日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

Think-Augmented Function Calling: Improving LLM Parameter Accuracy Through Embedded Reasoning

Arxiv

0+阅读 · 2月6日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

Probing the Trajectories of Reasoning Traces in Large Language Models

Arxiv

0+阅读 · 1月30日

相关基金

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员