From Model Choice to Model Belief: Establishing a New Measure for LLM-Based Research - 专知论文

会员服务 ·

0

模型选择 · 度量 · 大语言模型 · 概率 · 输出 ·

2025 年 12 月 29 日

From Model Choice to Model Belief: Establishing a New Measure for LLM-Based Research

翻译：从模型选择到模型信念：为基于LLM的研究建立新度量

Hongshen Sun,Juanjuan Zhang

Large language models (LLMs) are increasingly used to simulate human behavior, but common practices to use LLM-generated data are inefficient. Treating an LLM's output ("model choice") as a single data point underutilizes the information inherent to the probabilistic nature of LLMs. This paper introduces and formalizes "model belief," a measure derived from an LLM's token-level probabilities that captures the model's belief distribution over choice alternatives in a single generation run. The authors prove that model belief is asymptotically equivalent to the mean of model choices (a non-trivial property) but forms a more statistically efficient estimator, with lower variance and a faster convergence rate. Analogous properties are shown to hold for smooth functions of model belief and model choice often used in downstream applications. The authors demonstrate the performance of model belief through a demand estimation study, where an LLM simulates consumer responses to different prices. In practical settings with limited numbers of runs, model belief explains and predicts ground-truth model choice better than model choice itself, and reduces the computation needed to reach sufficiently accurate estimates by roughly a factor of 20. The findings support using model belief as the default measure to extract more information from LLM-generated data.

翻译：大型语言模型（LLM）越来越多地用于模拟人类行为，但当前使用LLM生成数据的常见做法效率低下。将LLM的输出（“模型选择”）视为单一数据点，未能充分利用LLM概率性质所固有的信息。本文引入并形式化了“模型信念”——一种源自LLM词元级概率的度量，它能在单次生成运行中捕获模型对选择备选项的信念分布。作者证明了模型信念渐近等价于模型选择的均值（这是一个非平凡性质），但构成了一个统计效率更高的估计量，具有更低的方差和更快的收敛速率。类似性质也被证明适用于下游应用中常用的模型信念与模型选择的平滑函数。作者通过一项需求估计研究展示了模型信念的性能，其中LLM模拟了消费者对不同价格的反应。在运行次数有限的现实场景中，模型信念比模型选择本身能更好地解释和预测真实模型选择，并将达到足够准确估计所需的计算量减少了约20倍。这些发现支持将模型信念作为默认度量，以从LLM生成的数据中提取更多信息。

0

相关内容

模型选择

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

UnHiPPO：面向不确定性的状态空间模型初始化方法

UnHiPPO：面向不确定性的状态空间模型初始化方法

专知会员服务

11+阅读 · 2025年6月6日

DARPA“对不同方案的主动解释”（AIDA）计划《Opera：面向运行的概率提取、推理和分析》美国空军2023最新70页技术报告

DARPA“对不同方案的主动解释”（AIDA）计划《Opera：面向运行的概率提取、推理和分析》美国空军2023最新70页技术报告

专知会员服务

58+阅读 · 2023年4月21日

DiffRec: 扩散推荐模型（SIGIR'23）

DiffRec: 扩散推荐模型（SIGIR'23）

专知会员服务

48+阅读 · 2023年4月16日

51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai

51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai

专知会员服务

68+阅读 · 2023年2月24日

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

专知会员服务

12+阅读 · 2021年10月23日

【ICML2021】基于子图结构的GNN解释模型

专知会员服务

50+阅读 · 2021年6月2日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

专知会员服务

136+阅读 · 2020年3月8日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

ICLR'21 | GNN联邦学习的新基准

ICLR'21 | GNN联邦学习的新基准

图与推荐

12+阅读 · 2021年11月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

PCA的基本数学原理

PCA的基本数学原理

算法与数学之美

11+阅读 · 2017年8月8日

RNN | RNN实践指南（2）

RNN | RNN实践指南（2）

KingsGarden

19+阅读 · 2017年5月4日

半线性广义Tricomi方程Cauchy问题解的生命跨度估计研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

P3P问题解分布的临界曲面研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

Statsformer: Validated Ensemble Learning with LLM-Derived Semantic Priors

Arxiv

0+阅读 · 1月29日

From Prediction to Perfection: Introducing Refinement to Autoregressive Image Generation

Arxiv

0+阅读 · 1月28日

Detecting and Correcting Hallucinations in LLM-Generated Code via Deterministic AST Analysis

Arxiv

0+阅读 · 1月27日

NOMADS: Non-Markovian Optimization-based Modeling for Approximate Dynamics with Spatially-homogeneous Memory

Arxiv

0+阅读 · 1月25日

LATTLE: LLM Attention Transplant for Transfer Learning of Tabular Data Across Disparate Domains

Arxiv

0+阅读 · 1月23日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

The Dog the Cat Chased Stumped the Model: Measuring When Language Models Abandon Structure for Shortcuts

Arxiv

0+阅读 · 1月20日

RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature

Arxiv

0+阅读 · 1月20日

Statistical-Neural Interaction Networks for Interpretable Mixed-Type Data Imputation

Arxiv

0+阅读 · 1月18日

Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《越野作战环境下路径规划的多准则整数规划模型》

《越野作战环境下路径规划的多准则整数规划模型》

专知会员服务

4+阅读 · 今天8:06

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

专知会员服务

3+阅读 · 今天8:00

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

专知会员服务

3+阅读 · 今天7:53

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

专知会员服务

6+阅读 · 今天7:49

《同步多无人机系统中的故障与通信》

《同步多无人机系统中的故障与通信》

专知会员服务

2+阅读 · 今天6:23

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

2+阅读 · 7月28日

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

7+阅读 · 7月28日

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

7+阅读 · 7月28日

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

8+阅读 · 7月28日

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

8+阅读 · 7月28日

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

9+阅读 · 7月28日

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

5+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

10+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

14+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

9+阅读 · 7月27日

相关VIP内容

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

UnHiPPO：面向不确定性的状态空间模型初始化方法

UnHiPPO：面向不确定性的状态空间模型初始化方法

专知会员服务

11+阅读 · 2025年6月6日

DARPA“对不同方案的主动解释”（AIDA）计划《Opera：面向运行的概率提取、推理和分析》美国空军2023最新70页技术报告

DARPA“对不同方案的主动解释”（AIDA）计划《Opera：面向运行的概率提取、推理和分析》美国空军2023最新70页技术报告

专知会员服务

58+阅读 · 2023年4月21日

DiffRec: 扩散推荐模型（SIGIR'23）

DiffRec: 扩散推荐模型（SIGIR'23）

专知会员服务

48+阅读 · 2023年4月16日

51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai

51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai

专知会员服务

68+阅读 · 2023年2月24日

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

专知会员服务

12+阅读 · 2021年10月23日

【ICML2021】基于子图结构的GNN解释模型

专知会员服务

50+阅读 · 2021年6月2日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

专知会员服务

136+阅读 · 2020年3月8日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

《越野作战环境下路径规划的多准则整数规划模型》

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

相关资讯

ICLR'21 | GNN联邦学习的新基准

ICLR'21 | GNN联邦学习的新基准

图与推荐

12+阅读 · 2021年11月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

PCA的基本数学原理

PCA的基本数学原理

算法与数学之美

11+阅读 · 2017年8月8日

RNN | RNN实践指南（2）

RNN | RNN实践指南（2）

KingsGarden

19+阅读 · 2017年5月4日

相关论文

Statsformer: Validated Ensemble Learning with LLM-Derived Semantic Priors

Arxiv

0+阅读 · 1月29日

From Prediction to Perfection: Introducing Refinement to Autoregressive Image Generation

Arxiv

0+阅读 · 1月28日

Detecting and Correcting Hallucinations in LLM-Generated Code via Deterministic AST Analysis

Arxiv

0+阅读 · 1月27日

NOMADS: Non-Markovian Optimization-based Modeling for Approximate Dynamics with Spatially-homogeneous Memory

Arxiv

0+阅读 · 1月25日

LATTLE: LLM Attention Transplant for Transfer Learning of Tabular Data Across Disparate Domains

Arxiv

0+阅读 · 1月23日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

The Dog the Cat Chased Stumped the Model: Measuring When Language Models Abandon Structure for Shortcuts

Arxiv

0+阅读 · 1月20日

RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature

Arxiv

0+阅读 · 1月20日

Statistical-Neural Interaction Networks for Interpretable Mixed-Type Data Imputation

Arxiv

0+阅读 · 1月18日

Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders

Arxiv

0+阅读 · 1月14日

相关基金

半线性广义Tricomi方程Cauchy问题解的生命跨度估计研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

P3P问题解分布的临界曲面研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员