Large Language Models (LLMs) have transformed artificial intelligence by excelling in complex natural language processing tasks. Their ability to generate human-like text has opened new possibilities for market research, particularly in conjoint analysis, where understanding consumer preferences is essential but often resource-intensive. Traditional survey-based methods face limitations in scalability and cost, making LLM-generated data a promising alternative. However, while LLMs have the potential to simulate real consumer behavior, recent studies highlight a significant gap between LLM-generated and human data, with biases introduced when substituting between the two. In this paper, we address this gap by proposing a novel statistical data augmentation approach that efficiently integrates LLM-generated data with real data in conjoint analysis. This results in statistically robust estimators with consistent and asymptotically normal properties, in contrast to naive approaches that simply substitute human data with LLM-generated data, which can exacerbate bias. We further present a finite-sample performance bound on the estimation error. We validate our framework through an empirical study on COVID-19 vaccine preferences, demonstrating its superior ability to reduce estimation error and save data and costs by 24.9% to 79.8%. In contrast, naive approaches fail to save data due to the inherent biases in LLM-generated data compared to human data. Another empirical study on sports car choices validates the robustness of our results. Our findings suggest that while LLM-generated data is not a direct substitute for human responses, it can serve as a valuable complement when used within a robust statistical framework.


翻译:大型语言模型(LLMs)通过擅长处理复杂的自然语言处理任务,已彻底改变了人工智能领域。其生成类人文本的能力为市场研究开辟了新的可能性,尤其是在联合分析中——理解消费者偏好至关重要但通常资源密集。传统的基于调查的方法在可扩展性和成本方面存在局限性,这使得LLM生成的数据成为一种有前景的替代方案。然而,尽管LLMs有潜力模拟真实的消费者行为,但近期研究凸显出LLM生成数据与人类数据之间存在显著差距,且当两者相互替代时会引入偏差。在本文中,我们通过提出一种新颖的统计数据增强方法来弥合这一差距,该方法在联合分析中高效整合了LLM生成的数据与真实数据。与简单用LLM生成数据替代人类数据(这可能会加剧偏差)的朴素方法不同,我们提出的方法可生成具有一致性和渐近正态性的统计稳健估计量。我们还给出了估计误差的有限样本性能界。我们通过一项关于COVID-19疫苗偏好的实证研究验证了该框架,证明其在降低估计误差方面具有优越性,可节省24.9%至79.8%的数据与成本。相比之下,由于LLM生成数据与人类数据相比存在固有偏差,朴素方法无法节省数据。另一项关于跑车选择的实证研究验证了我们结果的稳健性。我们的研究结果表明,LLM生成的数据虽不能直接替代人类响应,但在稳健统计框架内可作为有价值的补充。

0
下载
关闭预览

相关内容

大语言模型中的检索与结构化增强生成综述
专知会员服务
33+阅读 · 2025年9月17日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
26+阅读 · 2024年2月9日
Arxiv
12+阅读 · 2023年5月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员