Socially intelligent AI systems must reason across diverse human behavioral tasks and generalize to new social contexts. However, behavioral data is inherently heterogeneous, comprising diverse modalities and prediction targets that produce uneven training signals across samples, creating imbalanced learning dynamics that challenge existing AI models. To address this, we develop Omnisapiens-7B 2.0, a foundation model for social behavior processing that explicitly addresses learning from heterogeneous behavioral data. This is enabled through Heterogeneity-Aware Relative Policy Optimization, a new RL method that rebalances learning signals across samples by approximating each sample's contribution to the policy update and using these estimates to drive geometrically centered, inertially smoothed advantage modulation for stable training. Omnisapiens-7B 2.0 achieves the best and most consistent performance across 10 behavioral tasks, while also attaining the best performance on all five held-out benchmarks, with gains of up to +12.02% and +9.37% respectively. Furthermore, it demonstrates more consistent and interpretable reasoning traces, supporting reliable real-world behavioral applications. Our model is available at https://github.com/MIT-MI/human_behavior_atlas.


翻译:具备社会智能的AI系统需能推理多样化的人类行为任务并泛化至新社会情境。然而,行为数据本质上具有异质性,包含多种模态与预测目标,导致不同样本间产生不均衡的训练信号,形成失衡的学习动态,对现有AI模型构成挑战。为解决这一问题,我们开发了OmniSapiens-7B 2.0——一个显式处理异质性行为数据学习的社会行为处理基础模型。该模型通过异质性感知相对策略优化实现,这是一种新型强化学习方法:通过近似每个样本对策略更新的贡献来重平衡不同样本间的学习信号,并利用这些估计值驱动几何中心化、惯性平滑的优势调制,从而实现稳定训练。OmniSapiens-7B 2.0在10项行为任务上取得最佳且最稳定的性能,同时在全部5个留出基准测试中均达到最优结果,分别取得最高+12.02%和+9.37%的性能增益。此外,该模型展现出更一致、更可解释的推理轨迹,支持可靠的真实世界行为应用。我们的模型开源地址:https://github.com/MIT-MI/human_behavior_atlas

0
下载
关闭预览

相关内容

基于大语言模型智能体的社会认知模拟
专知会员服务
19+阅读 · 2月22日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
专知会员服务
46+阅读 · 2021年10月1日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员