Evaluating AI systems that interact with humans requires understanding their behavior across diverse user populations, but collecting representative human data is often expensive or infeasible, particularly for novel technologies or hypothetical future scenarios. Recent work in Generative Agent-Based Modeling has shown that large language models can simulate human-like synthetic personas with high fidelity, accurately reproducing the beliefs and behaviors of specific individuals. However, most approaches require detailed data about target populations and often prioritize density matching (replicating what is most probable) rather than support coverage (spanning what is possible), leaving long-tail behaviors underexplored. We introduce Persona Generators, functions that can produce diverse synthetic populations tailored to arbitrary contexts. We apply an iterative improvement loop based on AlphaEvolve, using large language models as mutation operators to refine our Persona Generator code over hundreds of iterations. The optimization process produces lightweight Persona Generators that can automatically expand small descriptions into populations of diverse synthetic personas that maximize coverage of opinions and preferences along relevant diversity axes. We demonstrate that evolved generators substantially outperform existing baselines across six diversity metrics on held-out contexts, producing populations that span rare trait combinations difficult to achieve in standard LLM outputs.


翻译:评估与人类交互的人工智能系统需要理解其在不同用户群体中的行为表现,但收集具有代表性的人类数据通常成本高昂或不可行,尤其是在面对新兴技术或假设性未来场景时。基于生成式智能体建模的最新研究表明,大语言模型能够以高保真度模拟类人的合成人物角色,准确复现特定个体的信念与行为。然而,现有方法大多需要目标群体的详细数据,且往往优先考虑密度匹配(复制最可能的情况)而非支持覆盖(涵盖所有可能情况),导致长尾行为未能得到充分探索。本文提出人物生成器——一种能够根据任意情境生成定制化多样化合成群体的函数。我们采用基于AlphaEvolve的迭代优化循环,将大语言模型作为变异算子,对人物生成器代码进行数百轮迭代优化。该优化过程最终产生轻量级的人物生成器,能够自动将简短描述扩展为多样化的合成人物群体,并沿相关多样性维度最大化观点与偏好的覆盖范围。实验表明,在六个多样性指标上,经过演化的人物生成器在未知情境中显著优于现有基线方法,所产生的群体能够覆盖标准大语言模型输出难以实现的稀有特征组合。

0
下载
关闭预览

相关内容

生成器是一次生成一个值的特殊类型函数。可以将其视为可恢复函数。调用该函数将返回一个可用于生成连续 x 值的生成【Generator】,简单的说就是在函数的执行过程中,yield语句会把你需要的值返回给调用生成器的地方,然后退出函数,下一次调用生成器函数的时候又从上次中断的地方开始执行,而生成器内的所有变量参数都会被保存下来供下一次使用。
《大语言模型辅助生成军事训练场景》
专知会员服务
38+阅读 · 2025年11月13日
NSR综述:生成式人工智能 | 赫然、曹杰、谭铁牛
专知会员服务
37+阅读 · 2025年3月10日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
自然语言生成的演变史
专知
25+阅读 · 2019年3月23日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
相关VIP内容
《大语言模型辅助生成军事训练场景》
专知会员服务
38+阅读 · 2025年11月13日
NSR综述:生成式人工智能 | 赫然、曹杰、谭铁牛
专知会员服务
37+阅读 · 2025年3月10日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
自然语言生成的演变史
专知
25+阅读 · 2019年3月23日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员