Social scientists are increasingly turning to unstructured datasets to unlock new empirical insights, e.g., estimating descriptive statistics of or causal effects on quantitative measures derived from text, audio, or video data. In many such settings, unsupervised analysis is of primary interest, in that the researcher does not want to (or cannot) pre-specify all important aspects of the unstructured data to measure; they are interested in "discovery." This paper proposes a general and flexible framework for pursuing discovery from unstructured data in a statistically principled way. The framework leverages recent methods from the literature on machine learning interpretability to map unstructured data points to high-dimensional, sparse, and interpretable "dictionaries" of concepts; computes statistics of dictionary entries for testing relevant concept-level hypotheses; performs selective inference on these hypotheses using algorithms validated by new results in high-dimensional central limit theory, producing a selected set ("discoveries"); and both generates and evaluates human-interpretable natural language descriptions of these discoveries. The proposed framework has few researcher degrees of freedom, is fully replicable, and is cheap to implement -- both in terms of financial cost and researcher time. Applications to recent descriptive and causal analyses of unstructured data in empirical economics are explored. An open source Jupyter notebook is provided for researchers to implement the framework in their own projects.


翻译:社会科学家日益转向非结构化数据集以获取新的实证洞见,例如基于文本、音频或视频数据衍生的量化指标进行描述性统计估计或因果效应推断。在此类研究场景中,无监督分析通常具有核心价值——研究者往往不期望(或无法)预先设定待测非结构化数据的所有重要维度,其研究目标在于实现"发现"。本文提出一个通用且灵活的统计框架,以遵循统计学原理的方式从非结构化数据中实现发现。该框架通过整合机器学习可解释性领域的最新方法,将非结构化数据点映射至高维、稀疏且可解释的概念"词典";计算词典条目的统计量以检验相关概念层级的假设;运用经高维中心极限理论新结果验证的算法对这些假设进行选择性推断,从而生成选定集合(即"发现");同时生成并评估这些发现的人类可理解自然语言描述。所提框架具有较低的研究者自由度,具备完全可复现性,且在财务成本与研究时间维度均易于实施。本文通过实证经济学中非结构化数据的描述性与因果分析案例验证了该框架的有效性,并为研究者提供了可应用于自身项目的开源Jupyter notebook。

0
下载
关闭预览

相关内容

国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员