Social scientists are increasingly turning to unstructured datasets to unlock new empirical insights, e.g., estimating descriptive statistics of or causal effects on quantitative measures derived from text, audio, or video data. In many such settings, unsupervised analysis is of primary interest, in that the researcher does not want to (or cannot) pre-specify all important aspects of the unstructured data to measure; they are interested in "discovery." This paper proposes a general and flexible framework for pursuing discovery from unstructured data in a statistically principled way. The framework leverages recent methods from the literature on machine learning interpretability to map unstructured data points to high-dimensional, sparse, and interpretable "dictionaries" of concepts; computes statistics of dictionary entries for testing relevant concept-level hypotheses; performs selective inference on these hypotheses using algorithms validated by new results in high-dimensional central limit theory, producing a selected set ("discoveries"); and both generates and evaluates human-interpretable natural language descriptions of these discoveries. The proposed framework has few researcher degrees of freedom, is fully replicable, and is cheap to implement -- both in terms of financial cost and researcher time. Applications to recent descriptive and causal analyses of unstructured data in empirical economics are explored. An open source Jupyter notebook is provided for researchers to implement the framework in their own projects.


翻译:社会科学家日益转向非结构化数据集以获取新的实证洞见,例如基于文本、音频或视频数据衍生的量化指标进行描述性统计估计或因果效应推断。在此类研究场景中,无监督分析通常具有核心价值——研究者往往不期望(或无法)预先设定待测非结构化数据的所有重要维度,其研究目标在于实现"发现"。本文提出一个通用且灵活的统计框架,以遵循统计学原理的方式从非结构化数据中实现发现。该框架通过整合机器学习可解释性领域的最新方法,将非结构化数据点映射至高维、稀疏且可解释的概念"词典";计算词典条目的统计量以检验相关概念层级的假设;运用经高维中心极限理论新结果验证的算法对这些假设进行选择性推断,从而生成选定集合(即"发现");同时生成并评估这些发现的人类可理解自然语言描述。所提框架具有较低的研究者自由度,具备完全可复现性,且在财务成本与研究时间维度均易于实施。本文通过实证经济学中非结构化数据的描述性与因果分析案例验证了该框架的有效性,并为研究者提供了可应用于自身项目的开源Jupyter notebook。

0
下载
关闭预览

相关内容

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月30日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
13+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
8+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
13+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
19+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
4+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
6+阅读 · 4月12日
相关VIP内容
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员