Socio-economic causal effects depend heavily on their specific institutional and environmental context. A single intervention can produce opposite results depending on regulatory or market factors, contexts that are often complex and only partially observed. This poses a significant challenge for large language models (LLMs) in decision-support roles: can they distinguish structural causal mechanisms from surface-level correlations when the context changes? To address this, we introduce EconCausal, a large-scale benchmark comprising 10,490 context-annotated causal triplets extracted from 2,595 high-quality empirical studies published in top-tier economics and finance journals. Through a rigorous four-stage pipeline combining multi-run consensus, context refinement, and multi-critic filtering, we ensure each claim is grounded in peer-reviewed research with explicit identification strategies. Our evaluation reveals critical limitations in current LLMs' context-dependent reasoning. While top models achieve approximately 88 percent accuracy in fixed, explicit contexts, performance drops sharply under context shifts, with a 32.6 percentage point decline, and falls to 37 percent when misinformation is introduced. Furthermore, models exhibit severe over-commitment in ambiguous cases and struggle to recognize null effects, achieving only 9.5 percent accuracy, exposing a fundamental gap between pattern matching and genuine causal reasoning. These findings underscore substantial risks for high-stakes economic decision-making, where the cost of misinterpreting causality is high. The dataset and benchmark are publicly available at https://github.com/econaikaist/econcausal-benchmark.


翻译:社会经济因果效应高度依赖于其特定的制度与环境背景。同一干预措施可能因监管或市场因素产生截然相反的结果,而这些背景往往复杂且仅被部分观测。这对承担决策支持角色的大语言模型提出了重大挑战:当背景发生变化时,它们能否区分结构性因果机制与表面相关性?为此,我们提出了EconCausal,一个大规模基准数据集,包含从2595项发表于顶尖经济与金融期刊的高质量实证研究中提取的10,490个带上下文标注的因果三元组。通过结合多轮共识、上下文精炼与多评判过滤的严格四阶段流程,我们确保每个论断均基于同行评议研究,并具有明确的识别策略。我们的评估揭示了当前大语言模型在上下文依赖推理方面的关键局限:尽管顶尖模型在固定、明确的背景下能达到约88%的准确率,但在背景变化下性能急剧下降,降幅达32.6个百分点;当引入错误信息时,准确率更降至37%。此外,模型在模糊情境下表现出严重的过度确信,且难以识别零效应,准确率仅为9.5%,这暴露了模式匹配与真实因果推理之间的根本差距。这些发现凸显了高风险经济决策中的重大风险,其中误解因果关系的代价高昂。本数据集与基准已公开于https://github.com/econaikaist/econcausal-benchmark。

0
下载
关闭预览

相关内容

【博士论文】《自然语言处理中的因果推理》
专知会员服务
24+阅读 · 2025年4月25日
因果性与大型语言模型:一个新的前沿,51页ppt
专知会员服务
79+阅读 · 2023年9月17日
专知会员服务
94+阅读 · 2021年9月5日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
【学界】融合对抗学习的因果关系抽取
GAN生成式对抗网络
16+阅读 · 2018年7月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员