Instruction-tuned language models can answer the same causal-reasoning question differently after its English variable names are replaced by type-preserving placeholders, although the structural causal model and the gold answer are unchanged. We ask whether this lexical gap reflects information loss in the placeholder view or a misaligned read-out from a representation that still carries answer-relevant content. Vernier uses a paired-view weight update as an instrument and then inspects the mechanism left after the gap closes. In the working regimes, the evidence favours representational misalignment. A variable-name probe becomes more accurate on the placeholder view, and activation patching on Qwen-7B, Qwen-14B, and Llama-3.1-8B shows that the decision-token representation can transfer answer identity between views. The update that realigns the views is counterfactual augmentation over original and placeholder prompts, while the answer-subspace KL mainly sharpens intermediate answer-belief agreement. Success is bounded by model family, scale, and task. CRASS transfer is reliable across Qwen scales and Llama, e-CARE remains weak, and preliminary non-causal rename tasks show a similar qualitative pattern.


翻译:指令微调的语言模型在回答同一因果推理问题时,若将英文变量名替换为类型保留的占位符,尽管结构因果模型和标准答案均保持不变,模型却可能给出不同答案。我们探究这一词法间隙究竟反映的是占位符视图下的信息丢失,还是来自仍携带答案相关内容表征的失调读取。Vernier利用配对视图权重更新作为工具,进而检视间隙闭合后所遗留的机制。在有效工作区间内,证据支持表征失调的观点。变量名探针在占位符视图上的准确率提升,且对Qwen-7B、Qwen-14B和Llama-3.1-8B的激活修补实验表明,决策令牌表征能够在视图间传递答案身份。实现视图重新对齐的更新是对原始提示与占位符提示的反事实增强,而答案子空间KL散度主要强化中间答案信念的一致性。成功率受限于模型家族、规模及任务类型。CRASS迁移在Qwen各规模模型与Llama上表现可靠,e-CARE则持续较弱,而初步的非因果重命名任务呈现出相似的定性模式。

0
下载
关闭预览

相关内容

【博士论文】《自然语言处理中的因果推理》
专知会员服务
25+阅读 · 2025年4月25日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
专知会员服务
101+阅读 · 2021年3月20日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员