用户模拟(User Simulation)是计算机科学中的长期研究课题,其核心目标是构造能够替代真实用户的行为代理,从而支持系统评测、交互优化、数据增强等多种应用。近年来,大语言模型(LLM)凭借其强大的语言生成能力,使合成用户对话的保真度达到了前所未有的高度,推动了对话用户模拟子领域的迅速发展。然而,相关文献分散在对话系统、推荐系统、社交模拟等多个方向,缺少统一组织与系统分析的专门综述。由Adobe Research和南加州大学等多机构合作的团队(Bo Ni等30位作者)正是针对这一空白,撰写了《A Survey on LLM-based Conversational User Simulation》。
该综述的创新之处在于提出了一个涵盖用户粒度(user granularity)和模拟目标(simulation objectives)的新分类法,并围绕三个核心问题组织全文:(1)模拟谁?——用户身份与群体;(2)模拟什么?——用户的属性、行为、偏好等目标;(3)如何模拟?——技术路线与生成策略。通过这一统一框架,作者系统梳理了近年来的代表性方法、评估协议与常用数据集,并指出了关键开放挑战。 对于关注对话系统、用户建模、LLM应用的研究者和实践者来说,这篇综述提供了清晰的领域全景,有助于快速了解当前主流方法、技术演变以及未解决的问题。文章的信息密度高,分类严谨,附录中包含了与相关综述的对比分析,非常适合作为入门或系统化的参考资料。
原文链接 http://arxiv.org/abs/2604.24977v1
用户模拟在计算机科学中长期以来扮演着重要角色,其潜力支持着广泛的应用。语言作为人类交流的主要媒介,构成了社会互动和行为的基础。因此,模拟对话行为已成为一个关键研究领域。大语言模型(LLM)的最新进展通过实现高保真的合成用户对话生成,极大地催化了这一领域的进步。本文综述了基于LLM的对话用户模拟的最新进展。我们提出了一个涵盖用户粒度和模拟目标的新分类法。此外,我们系统分析了核心技术和评估方法。我们旨在让研究社区了解对话用户模拟的最新进展,并通过识别开放挑战和将现有工作组织在统一框架下,进一步促进未来研究。
尽管用户模拟研究已有数十年历史,从经典的Bradley-Terry-Luce模型到基于统计的协同过滤、矩阵分解,再到近年基于LLM的模拟方法,大量工作聚焦于从数据中学习用户偏好与行为。然而,这些方法大多针对特定应用领域(如推荐系统、搜索),且往往需要大量用户数据进行训练。LLM的出现显著改变了这一局面:它可以通过提示工程在零样本或少样本条件下生成丰富的、情境化的用户交互,从而大幅降低了模拟成本,并拓宽了模拟任务的通用性。 然而,现实用户交互的“对话性”是一个核心维度——语言作为人类交流的主要媒介,在模拟用户时必须显式建模多轮、互动性的对话过程。已有工作如USimAgent、BASES等在搜索、推荐等场景中取得了进展,证明了对话式用户模拟能够提升系统与用户需求的对齐。但遗憾的是,该领域缺少一个专门组织并分析对话用户模拟子领域的综述。现有综述往往涵盖更广的用户模拟范围(如信息访问系统评测),或聚焦于特定技术(如LLM代理),但未系统审视“对话式”用户模拟的独特问题。 本文旨在填补这一空白。作者通过提出一个包含三个基本问题的统一分类框架——(1)模拟谁?(2)模拟什么?(3)如何模拟?——来组织现有文献。这一框架帮助读者理解不同工作之间的内在联系和差异。与已有综述相比,本文专注于对话用户模拟,并在附录A.3中详细讨论了自己与相关综述的定位区别。
Figure 1: Overview of the proposed taxonomies for user conversation simulation. 来源:原论文 PDF 第 1 页。
本文作为综述论文,其“方法”部分实质上是综述的框架与分类体系。作者围绕三个基本问题构建了完整的分析路线:
该维度关注模拟对象,即用户身份与群体。作者将其分为两个子层次:
该维度关注模拟的内容层面,即生成用户对话所需刻画的属性或行为。作者归纳了以下几类核心内容:
该维度关注技术手段,即如何生成对话的流程与内容。作者将其分为两大技术路线:
此外,作者还讨论了混合方法,即结合数据驱动和提示工程的优势,例如先用数据驱动方法训练一个基础模拟器,再通过提示注入特定知识或约束。 整体上,这三个问题形成一个三维坐标轴,覆盖了从“谁在模拟”到“模拟什么”再到“怎么模拟”的完整链条。这种分类法既保持了通用性(覆盖个人、群体、不同目标),又提供了清晰的定位方式。
Figure 3: Taxonomy of Individual User Simulation. Explicit traits 来源:原论文 PDF 第 25 页。
原文未明确说明。本文为综述论文,没有进行新的实验。然而,作者在综述中系统分析了现有工作的评估方法,主要包括以下几个方面:
尽管没有新的实验数据,该综述通过对现有评估工作的整理,提供了指导性建议:建议研究者结合自动和人工指标,并注意基线方法的选择、数据隐私与伦理审查。 Figure 4: Comparing different types of conversational trajectories starting from an initial input query by the user. 来源:原论文 PDF 第 26 页。
本文通过Who、What、How的统一框架回顾了基于LLM的对话用户模拟的代表性文献,主要贡献包括:
作者坦诚指出了本文的局限:
基于综述分析,作者提出了若干值得关注的开放挑战: