Large language models are increasingly deployed as human simulators for interactive evaluation and social simulation. Yet helpfulness-driven post-training pulls them toward a homogeneous, overly agreeable assistant register, creating a behavioral Sim2Real gap. We present OdysSim, the largest open systematic investigation of behavioral foundation models, i.e., models trained to simulate human behavior at scale. We propose SOUL, a taxonomy of five capability axes (CONV, SS, COG, ROLE, EVAL) that unifies 62 datasets and 23 benchmark tasks under one framework. Specifically, we curate the OdysSim corpus (21.4M interactions, 10B tokens, retrofitted with back-generated social contexts), construct the SOUL-Index benchmark, and develop an end-to-end training recipe combining midtraining, task-specific RL, and expert distillation. The resulting open 8B OSim model ranks first or tied-first on 8 of 23 tasks, outperforming any individual frontier model by this count, with the strongest gains on conversational and social tasks. Its outputs are also more human-like in length, formatting, and word choice, and it transfers zero-shot to out-of-distribution user simulation on $τ$-bench, nearly matching real users on reaction alignment (93.2 vs. 93.5). We further show that LLM-as-judge RL induces reward-hacking patterns, and that our detectors can mitigate them during post-training. Together, our findings suggest that behavioral foundation models require rethinking the LLM training paradigm. We release all artifacts to support future research.


翻译:大语言模型正越来越多地被部署为用于交互评估和社会模拟的人类模拟器。然而,以助益性驱动的后训练将它们拉向一种同质化、过度顺从的助手风格,造成了行为模拟的Sim2Real差距。我们提出OdysSim,这是对行为基础模型(即训练用于大规模模拟人类行为的模型)进行的最大规模系统性开放研究。我们提出SOUL,一个包含五个能力轴(CONV、SS、COG、ROLE、EVAL)的分类体系,将62个数据集和23个基准任务统一在一个框架下。具体而言,我们整理了OdysSim语料库(2140万次交互、100亿个token,并补充了反向生成的社交上下文),构建了SOUL-Index基准,并开发了一套结合中期训练、任务特定强化学习和专家蒸馏的端到端训练方案。由此产生的开源8B参数OSim模型在23项任务中的8项上排名第一或并列第一,以此计超越了任何单个前沿模型,在对话和社交任务上提升最为显著。其输出在长度、格式和用词上也更接近人类,并且能零样本迁移至τ-bench上的分布外用户模拟,在反应一致性上几乎与真实用户持平(93.2 vs. 93.5)。我们进一步表明,以LLM作为评判者的强化学习会引发奖励黑客模式,而我们的检测器能在后训练期间缓解这些问题。综合来看,我们的发现表明,行为基础模型需要重新思考LLM的训练范式。我们公开发布所有资源以支持未来研究。

0
下载
关闭预览

相关内容

ACL 2025 | 高效样本利用的大模型人类评估方法
专知会员服务
14+阅读 · 2025年5月22日
【NTU博士论文】让语言模型更接近人类学习者
专知会员服务
18+阅读 · 2025年5月3日
【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
专知会员服务
55+阅读 · 2025年3月19日
以人为中心的基础模型:感知、生成与代理建模
专知会员服务
24+阅读 · 2025年2月13日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员