InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems - 专知论文

会员服务 ·

0

基准 · 设计 · 语言模型 · 系统 · 大语言模型基准 ·

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

翻译：InterveneBench：面向真实社会系统中干预推理与因果研究设计的大语言模型基准

Shaojie Shi,Zhengyu Shi,Lingran Zheng,Xinyu Su,Anna Xie,Bohao Lv,Rui Xu,Zijian Chen,Zhichao Chen,Guolei Liu,Naifu Zhang,Mingjian Dong,Zhuo Quan,Bohao Chen,Teqi Hao,Yuan Qi,Yinghui Xu,Libo Wu

from arxiv, 35pages,3 figures

Causal inference in social science relies on end-to-end, intervention-centered research-design reasoning grounded in real-world policy interventions, but current benchmarks fail to evaluate this capability of large language models (LLMs). We present InterveneBench, a benchmark designed to assess such reasoning in realistic social settings. Each instance in InterveneBench is derived from an empirical social science study and requires models to reason about policy interventions and identification assumptions without access to predefined causal graphs or structural equations. InterveneBench comprises 744 peer-reviewed studies across diverse policy domains. Experimental results show that state-of-the-art LLMs struggle under this setting. To address this limitation, we further propose a multi-agent framework, STRIDES. It achieves significant performance improvements over state-of-the-art reasoning models. Our code and data are available at https://github.com/Sii-yuning/STRIDES.

翻译：社会科学中的因果推断依赖于基于现实政策干预的端到端、以干预为中心的研究设计推理，然而现有基准未能评估大语言模型（LLMs）的此项能力。我们提出InterveneBench，一个为评估真实社会场景中此类推理能力而设计的基准。InterveneBench中的每个实例均源自实证社会科学研究，要求模型在无法获取预定义因果图或结构方程的条件下，对政策干预与识别假设进行推理。该基准涵盖多个政策领域的744项同行评议研究。实验结果表明，当前最先进的大语言模型在此设定下表现欠佳。为应对这一局限，我们进一步提出一个多智能体框架STRIDES，其在性能上显著超越了现有最先进的推理模型。我们的代码与数据公开于https://github.com/Sii-yuning/STRIDES。

0

相关内容

大语言模型溯因推理的统一分类学与综述

大语言模型溯因推理的统一分类学与综述

专知会员服务

16+阅读 · 4月12日

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【博士论文】《自然语言处理中的因果推理》

【博士论文】《自然语言处理中的因果推理》

专知会员服务

24+阅读 · 2025年4月25日

面向统计学家的大型语言模型概述

面向统计学家的大型语言模型概述

专知会员服务

32+阅读 · 2025年3月16日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

专知会员服务

50+阅读 · 2024年3月17日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

因果性与大型语言模型：一个新的前沿，51页ppt

因果性与大型语言模型：一个新的前沿，51页ppt

专知会员服务

79+阅读 · 2023年9月17日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

专知

13+阅读 · 2020年7月16日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

哈佛大学Miguel Hernan科学家最新2019年《因果推断:概念与方法》书稿终版，280页讲解因果效应（附下载）

哈佛大学Miguel Hernan科学家最新2019年《因果推断:概念与方法》书稿终版，280页讲解因果效应（附下载）

专知

77+阅读 · 2019年1月3日

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

专知

103+阅读 · 2018年11月11日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios

Arxiv

0+阅读 · 5月1日

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Arxiv

0+阅读 · 4月20日

PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models

Arxiv

0+阅读 · 4月14日

SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

Arxiv

0+阅读 · 4月13日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 3月20日

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

Arxiv

0+阅读 · 3月11日

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Arxiv

0+阅读 · 3月4日

CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching

Arxiv

0+阅读 · 2月23日

KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge

Arxiv

0+阅读 · 2月23日

Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey

Arxiv

12+阅读 · 2024年3月14日

VIP会员

文章信息

相关主题

大语言模型基准

最新内容

美国边境监控技术演变：无人机与人工智能系统（2001-2025年）（中文版下载，1.3万字）

美国边境监控技术演变：无人机与人工智能系统（2001-2025年）（中文版下载，1.3万字）

专知会员服务

5+阅读 · 今天6:24

技术突袭：俄乌战争中新型精确打击武器的战术与效应（中文版下载，2万字）

技术突袭：俄乌战争中新型精确打击武器的战术与效应（中文版下载，2万字）

专知会员服务

5+阅读 · 今天4:57

《基于生成式通信模型的分布式智能体学习》127页

《基于生成式通信模型的分布式智能体学习》127页

专知会员服务

6+阅读 · 今天3:38

《应对无人机威胁：欧洲反无人机系统》最新报告

《应对无人机威胁：欧洲反无人机系统》最新报告

专知会员服务

5+阅读 · 今天3:35

俄罗斯无人机战线实验

俄罗斯无人机战线实验

专知会员服务

5+阅读 · 今天3:29

高阶网络的表示：基于图的框架综述

高阶网络的表示：基于图的框架综述

专知会员服务

8+阅读 · 5月14日

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

4+阅读 · 5月14日

俄乌冲突中的高超音速武器系统及效能评估（中文版PDF下载）

俄乌冲突中的高超音速武器系统及效能评估（中文版PDF下载）

专知会员服务

20+阅读 · 5月14日

《战略冲突的数学建模：基于变分不等式、不动点理论、间隙函数与微分博弈的美以伊冲突分析》

《战略冲突的数学建模：基于变分不等式、不动点理论、间隙函数与微分博弈的美以伊冲突分析》

专知会员服务

12+阅读 · 5月14日

《人工智能中的多智能体自主决策》380页博士论文

《人工智能中的多智能体自主决策》380页博士论文

专知会员服务

16+阅读 · 5月14日

《作战资源再分配的作战行动数学模型构建》

《作战资源再分配的作战行动数学模型构建》

专知会员服务

14+阅读 · 5月14日

乌克兰作为杀伤网实验室：情报监视侦察（ISR）网络赋能自适应无人机战争——经验分析

乌克兰作为杀伤网实验室：情报监视侦察（ISR）网络赋能自适应无人机战争——经验分析

专知会员服务

10+阅读 · 5月14日

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

8+阅读 · 5月13日

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

15+阅读 · 5月13日

全球十大防空反导系统：列表、射程与用途

全球十大防空反导系统：列表、射程与用途

专知会员服务

16+阅读 · 5月13日

相关VIP内容

大语言模型溯因推理的统一分类学与综述

大语言模型溯因推理的统一分类学与综述

专知会员服务

16+阅读 · 4月12日

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【博士论文】《自然语言处理中的因果推理》

【博士论文】《自然语言处理中的因果推理》

专知会员服务

24+阅读 · 2025年4月25日

面向统计学家的大型语言模型概述

面向统计学家的大型语言模型概述

专知会员服务

32+阅读 · 2025年3月16日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

专知会员服务

50+阅读 · 2024年3月17日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

因果性与大型语言模型：一个新的前沿，51页ppt

因果性与大型语言模型：一个新的前沿，51页ppt

专知会员服务

79+阅读 · 2023年9月17日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

技术突袭：俄乌战争中新型精确打击武器的战术与效应（中文版下载，2万字）

《应对无人机威胁：欧洲反无人机系统》最新报告

美国边境监控技术演变：无人机与人工智能系统（2001-2025年）（中文版下载，1.3万字）

《基于生成式通信模型的分布式智能体学习》127页

相关资讯

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

专知

13+阅读 · 2020年7月16日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

哈佛大学Miguel Hernan科学家最新2019年《因果推断:概念与方法》书稿终版，280页讲解因果效应（附下载）

哈佛大学Miguel Hernan科学家最新2019年《因果推断:概念与方法》书稿终版，280页讲解因果效应（附下载）

专知

77+阅读 · 2019年1月3日

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

专知

103+阅读 · 2018年11月11日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

相关论文

FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios

Arxiv

0+阅读 · 5月1日

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Arxiv

0+阅读 · 4月20日

PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models

Arxiv

0+阅读 · 4月14日

SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

Arxiv

0+阅读 · 4月13日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 3月20日

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

Arxiv

0+阅读 · 3月11日

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Arxiv

0+阅读 · 3月4日

CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching

Arxiv

0+阅读 · 2月23日

KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge

Arxiv

0+阅读 · 2月23日

Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey

Arxiv

12+阅读 · 2024年3月14日

相关基金

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员