ReBeCA: Unveiling Interpretable Behavior Hierarchy behind the Iterative Self-Reflection of Language Models with Causal Analysis - 专知论文

会员服务 ·

0

分析 · 结构 · 因果分析 · 层次结构 · 相关性 ·

ReBeCA: Unveiling Interpretable Behavior Hierarchy behind the Iterative Self-Reflection of Language Models with Causal Analysis

翻译：ReBeCA：基于因果分析揭示语言模型迭代自反思背后的可解释行为层次结构

Tianqiang Yan,Sihan Shang,Yuheng Li,Song Qiu,Hao Peng,Wenjian Luo,Jue Xie,Lizhen Qu,Yuan Gao

from arxiv, 17 pages, 3 figures

While self-reflection can enhance language model reliability, its underlying mechanisms remain opaque, with existing analyses often yielding correlation-based insights that fail to generalize. To address this, we introduce \textbf{\texttt{ReBeCA}} (self-\textbf{\texttt{Re}}flection \textbf{\texttt{Be}}havior explained through \textbf{\texttt{C}}ausal \textbf{\texttt{A}}nalysis), a framework that unveils the interpretable behavioral hierarchy governing the self-reflection outcome. By modeling self-reflection trajectories as causal graphs, ReBeCA isolates genuine determinants of performance through a three-stage Invariant Causal Prediction (ICP) pipeline. We establish three critical findings: (1) \textbf{Behavioral hierarchy:} Semantic behaviors of the model influence final self-reflection results hierarchically: directly or indirectly; (2) \textbf{Causation matters:} Generalizability in self-reflection effects is limited to just a few semantic behaviors; (3) \textbf{More $\mathbf{\neq}$ better:} The confluence of seemingly positive semantic behaviors, even among direct causal factors, can impair the efficacy of self-reflection. ICP-based verification identifies sparse causal parents achieving up to $49.6\%$ structural likelihood gains, stable across tasks where correlation-based patterns fail. Intervention studies on novel datasets confirm these causal relationships hold out-of-distribution ($p = .013, η^2_\mathrm{p} = .071$). ReBeCA thus provides a rigorous methodology for disentangling genuine causal mechanisms from spurious associations in self-reflection dynamics.

翻译：尽管自反思能够提升语言模型的可靠性，但其内在机制仍不透明，现有分析多局限于相关性研究，难以推广。为此，我们提出\textbf{\texttt{ReBeCA}}（通过\textbf{\texttt{因果分析}}阐释的\textbf{\texttt{自反思行为}}）框架，该框架揭示了支配自反思结果的可解释行为层次结构。通过将自反思轨迹建模为因果图，ReBeCA采用三阶段不变因果预测（ICP）流程分离出影响性能的真实决定因素。我们确立了三个关键发现：（1）\textbf{行为层次性：}模型的语义行为以直接或间接方式分层影响最终自反思结果；（2）\textbf{因果主导性：}自反思效果的可推广性仅局限于少数语义行为；（3）\textbf{多非即优：}看似积极的语义行为（即便是直接因果因素）若同时出现，反而可能削弱自反思效能。基于ICP的验证表明，稀疏因果父节点可实现高达$49.6\%$的结构似然增益，且在相关性模式失效的任务中保持稳定。对新数据集的干预研究证实这些因果关系具有分布外泛化能力（$p = .013, η^2_\mathrm{p} = .071$）。因此，ReBeCA为解构自反思动态中真实因果机制与虚假关联提供了严谨的方法论。

0

相关内容

NLP中如何处理因果性？EMNLP2022最新《自然语言处理因果关系导论》教程，180页ppt全面讲解因果发现和因果效应估计

NLP中如何处理因果性？EMNLP2022最新《自然语言处理因果关系导论》教程，180页ppt全面讲解因果发现和因果效应估计

专知会员服务

67+阅读 · 2022年12月16日

深度学习和因果如何结合？北交最新《深度因果模型》综述论文，31页pdf涵盖216页pdf详述41个深度因果模型

深度学习和因果如何结合？北交最新《深度因果模型》综述论文，31页pdf涵盖216页pdf详述41个深度因果模型

专知会员服务

128+阅读 · 2022年9月21日

西安交大最新《深度学习因果发现》综述论文，26页pdf涵盖211篇文献阐述三种深度因果范式

西安交大最新《深度学习因果发现》综述论文，26页pdf涵盖211篇文献阐述三种深度因果范式

专知会员服务

117+阅读 · 2022年9月15日

速看！上海交大卢策吾团队在Nature发表行为理解最新研究成果！

速看！上海交大卢策吾团队在Nature发表行为理解最新研究成果！

专知会员服务

40+阅读 · 2022年4月12日

【ACL2021】基于外部因果陈述自监督表示学习的事件因果关系识别

专知会员服务

35+阅读 · 2021年8月15日

【MPG & MILA 】因果表示学习，Towards Causal Representation Learning

专知会员服务

52+阅读 · 2021年7月29日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

专知会员服务

46+阅读 · 2020年1月11日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

专知

13+阅读 · 2020年7月16日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

专知

103+阅读 · 2018年11月11日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

【学界】融合对抗学习的因果关系抽取

【学界】融合对抗学习的因果关系抽取

GAN生成式对抗网络

16+阅读 · 2018年7月14日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

ORCA: ORchestrating Causal Agent

Arxiv

0+阅读 · 3月18日

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

Arxiv

0+阅读 · 3月16日

Causal Meta-Analysis: Rethinking the Foundations of Evidence-Based Medicine

Arxiv

0+阅读 · 3月11日

ParamMem: Augmenting Language Agents with Parametric Reflective Memory

Arxiv

0+阅读 · 2月26日

When Models Examine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing

Arxiv

0+阅读 · 2月18日

Intrinsic Self-Correction in LLMs: Towards Explainable Prompting via Mechanistic Interpretability

Arxiv

0+阅读 · 2月11日

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月9日

From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs

Arxiv

0+阅读 · 2月5日

From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs

Arxiv

0+阅读 · 2月2日

Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

1+阅读 · 今天13:30

多智能体协作机制

多智能体协作机制

专知会员服务

1+阅读 · 今天13:26

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

14+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

8+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

NLP中如何处理因果性？EMNLP2022最新《自然语言处理因果关系导论》教程，180页ppt全面讲解因果发现和因果效应估计

NLP中如何处理因果性？EMNLP2022最新《自然语言处理因果关系导论》教程，180页ppt全面讲解因果发现和因果效应估计

专知会员服务

67+阅读 · 2022年12月16日

深度学习和因果如何结合？北交最新《深度因果模型》综述论文，31页pdf涵盖216页pdf详述41个深度因果模型

深度学习和因果如何结合？北交最新《深度因果模型》综述论文，31页pdf涵盖216页pdf详述41个深度因果模型

专知会员服务

128+阅读 · 2022年9月21日

西安交大最新《深度学习因果发现》综述论文，26页pdf涵盖211篇文献阐述三种深度因果范式

西安交大最新《深度学习因果发现》综述论文，26页pdf涵盖211篇文献阐述三种深度因果范式

专知会员服务

117+阅读 · 2022年9月15日

速看！上海交大卢策吾团队在Nature发表行为理解最新研究成果！

速看！上海交大卢策吾团队在Nature发表行为理解最新研究成果！

专知会员服务

40+阅读 · 2022年4月12日

【ACL2021】基于外部因果陈述自监督表示学习的事件因果关系识别

专知会员服务

35+阅读 · 2021年8月15日

【MPG & MILA 】因果表示学习，Towards Causal Representation Learning

专知会员服务

52+阅读 · 2021年7月29日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

专知会员服务

46+阅读 · 2020年1月11日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

专知

13+阅读 · 2020年7月16日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

专知

103+阅读 · 2018年11月11日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

【学界】融合对抗学习的因果关系抽取

【学界】融合对抗学习的因果关系抽取

GAN生成式对抗网络

16+阅读 · 2018年7月14日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

相关论文

ORCA: ORchestrating Causal Agent

Arxiv

0+阅读 · 3月18日

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

Arxiv

0+阅读 · 3月16日

Causal Meta-Analysis: Rethinking the Foundations of Evidence-Based Medicine

Arxiv

0+阅读 · 3月11日

ParamMem: Augmenting Language Agents with Parametric Reflective Memory

Arxiv

0+阅读 · 2月26日

When Models Examine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing

Arxiv

0+阅读 · 2月18日

Intrinsic Self-Correction in LLMs: Towards Explainable Prompting via Mechanistic Interpretability

Arxiv

0+阅读 · 2月11日

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月9日

From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs

Arxiv

0+阅读 · 2月5日

From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs

Arxiv

0+阅读 · 2月2日

Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs

Arxiv

0+阅读 · 2月2日

相关基金

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员