Large language models (LLMs) are increasingly used to simulate survey responses, but synthetic data can be misaligned with the human population, leading to unreliable inference. We develop a general framework that converts LLM-simulated responses into reliable confidence sets for population parameters of human responses, quantifying the uncertainty induced by the human-LLM misalignment. The key design choice is the number of simulated responses: too many produce overly narrow sets with poor coverage, while too few yield overly wide and uninformative sets dominated by stochastic noise. We propose a data-driven approach that adaptively selects the simulation sample size to achieve nominal average-case coverage, regardless of the LLM's simulation fidelity or the confidence set construction procedure. The selected sample size is further shown to reflect the effective human population size that the LLM can represent, providing a quantitative measure of its simulation fidelity. Experiments on real survey datasets reveal heterogeneous simulation fidelity across different LLMs and domains.


翻译:大型语言模型(LLM)越来越多地被用于模拟调查响应,但合成数据可能与人类群体不一致,导致推断不可靠。我们开发了一个通用框架,将LLM模拟的响应转换为人类响应总体参数的可信置信集,量化了由人类与LLM不一致所引发的不确定性。关键设计选择是模拟响应的数量:过多会导致集合过窄且覆盖不足,而过少则会产生过宽且无信息的集合,被随机噪声主导。我们提出了一种数据驱动的方法,自适应地选择模拟样本量,以实现名义上的平均情况覆盖,无论LLM的模拟保真度或置信集构建过程如何。所选样本量进一步被证明反映了LLM所能代表的有效人类群体规模,提供了其模拟保真度的定量度量。在真实调查数据集上的实验揭示了不同LLM和领域之间模拟保真度的异质性。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
关于大型语言模型需要知道的8件事
专知会员服务
27+阅读 · 2023年4月3日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
26+阅读 · 2024年2月9日
Arxiv
17+阅读 · 2023年9月26日
Arxiv
21+阅读 · 2023年7月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
关于大型语言模型需要知道的8件事
专知会员服务
27+阅读 · 2023年4月3日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员