As generative AI models are increasingly used to simulate real-world systems, quantifying the ``sim-to-real'' gap is critical. The distributional discrepancy between real and simulated outputs is a random variable driven by the stochastic input scenario. A fundamental challenge is that for any given input, the ground-truth and simulated output distributions are only observable through finite batches of samples, often of heterogeneous sizes. This renders standard predictive inference methods inapplicable, as they seek to quantify uncertainty in observable outputs rather than their underlying population parameters. To address this, we construct confidence sets for these latent parameters and use them to derive a robust proxy for the sim-to-real discrepancy. We then estimate the quantile function of this proxy to provide a comprehensive risk profile of the simulator. Our method is model-agnostic and handles general output spaces, such as categorical survey responses and continuous multi-dimensional sensor data. By rigorously accounting for sampling error, the resulting risk profile supports statistical inference for the real output distribution in a new scenario, the calculation of risk measures like Conditional Value-at-Risk (CVaR), and principled comparisons across simulators. We demonstrate the practical utility of this method by evaluating the alignment of four major LLMs with human populations on the WorldValueBench dataset.


翻译:随着生成式人工智能模型日益广泛地应用于现实世界系统的模拟,量化"模拟-现实"差距变得至关重要。真实输出与模拟输出之间的分布差异是一个由随机输入场景驱动的随机变量。一个根本性挑战在于:对于任意给定输入,真实分布与模拟输出分布仅能通过有限批次的样本进行观测,且这些样本的规模往往存在异质性。这使得标准的预测推断方法无法适用,因为这些方法旨在量化可观测输出的不确定性,而非其潜在总体参数的不确定性。为解决此问题,我们为这些隐参数构建置信集,并利用其推导出模拟-现实差异的稳健代理指标。随后通过估计该代理指标的分位数函数,为模拟器提供全面的风险画像。我们的方法具有模型无关性,可处理包括分类调查响应与连续多维传感器数据在内的通用输出空间。通过严格考虑抽样误差,所得风险画像能够支持以下应用:新场景中真实输出分布的统计推断、条件风险价值(CVaR)等风险指标的计算,以及跨模拟器的原则性比较。我们通过在WorldValueBench数据集上评估四个主流大语言模型与人类群体的对齐度,验证了该方法的实际效用。

0
下载
关闭预览

相关内容

《一种与领域无关的终身学习系统表征方法》70页长论文
专知会员服务
36+阅读 · 2021年7月19日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
赛尔笔记 | 条件变分自编码器(CVAE)
AINLP
28+阅读 · 2019年11月8日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员