LLM-based digital twins promise to scale and accelerate market research, but most published twins are either coarse persona bots conditioned on a few demographic questions or detailed individual-level twins built on purpose-collected surveys and interview transcripts. Neither setup speaks to the operationally most relevant case for marketing practice: building detailed individual twins from the pre-existing heterogeneous panel data that firms already accumulate through CRM systems, loyalty programs, and repeat surveys. We construct detailed individual-level twins from the German Socio-Economic Panel (SOEP) and evaluate them across a $3 \times 5 \times 2 \times 2$ construction-method grid that covers three open-weights LLMs, five cumulative information depths ranked by normalized Shannon entropy, two embedding methods, and two reasoning modes, scoring over 2.1 million twin responses on 500 participants and 183 held-out questions. Twin quality rises with information depth but with diminishing returns past the 75 percent entropy quartile, which acts as a cost-efficient Pareto point relative to the best-performing 100 percent cells. Switching the embedding from a narrative persona summary to a raw dialog history of past responses raises hold-out accuracy in every model-by-reasoning cell at the 100 percent depth, while an explicit thinking mode raises rank-order correlation without moving accuracy. Best-cell accuracy reaches 78.8 percent and Fisher-$z$ correlation reaches $r = 0.590$ on the SOEP held-out evaluation set. The findings suggest that twin-based market research is no longer gated by data design, but by item volume, model selection, and a small set of construction-level decisions that this paper now maps.


翻译:基于大语言模型的数字孪生体有望扩展并加速市场调研,但现有大多数孪生体要么是基于少量人口统计问题构建的粗粒度角色机器人,要么是基于专门收集的问卷和访谈记录构建的细粒度个体孪生体。这两种方案均未涉及营销实践中操作性最相关的场景:即利用企业通过客户关系管理系统、忠诚度计划和重复调查已积累的现有异质性面板数据,构建细粒度个体孪生体。我们从德国社会经济面板数据中构建了细粒度个体孪生体,并基于一个涵盖三个开源大语言模型、按归一化香农熵排序的五级累积信息深度、两种嵌入方法和两种推理模式的$3 \times 5 \times 2 \times 2$构建方法网格对其进行评估,对500名参与者的183个保留问题评分了超过210万次孪生响应。孪生质量随信息深度提升,但超过75%熵分位数后边际收益递减,该分位数相对于表现最佳的100%细胞构成成本效益最优的帕累托点。在100%深度下,将嵌入方式从叙事性人格摘要切换为原始对话历史响应,在每个模型-推理组合的细胞中均提升了保留准确率,而显式推理模式在未改变准确率的情况下提升了秩相关系数。最佳细胞准确率达到78.8%,Fisher-$z$相关系数达到$r=0.590$(基于SOEP保留评估集)。研究结果表明,基于孪生体的市场研究不再受数据设计制约,而是受限于题项数量、模型选择及本文所映射的一小部分构建层面决策。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
【综述】 基于大语言模型的对话用户模拟综述
基于大语言模型智能体的社会认知模拟
专知会员服务
19+阅读 · 2月22日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
人工神经网络是否模拟了人类大脑?
数说工作室
10+阅读 · 2017年7月19日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员