Humans rapidly learn abstract knowledge when encountering novel environments and flexibly deploy this knowledge to guide efficient and intelligent action. Can modern AI systems learn and plan in a similar way? We study this question using a dataset of complex human gameplay with concurrent fMRI recordings, in which participants learn novel video games that require rule discovery, hypothesis revision, and multi-step planning. We jointly evaluate models by their ability to play the games, match human learning behavior, and predict brain activity during the same task, comparing a suite of frontier Large Reasoning Models (LRMs) against model-free and model-based deep reinforcement learning agents and a Bayesian theory-based agent. We find that frontier LRMs most closely match human behavioral patterns during game discovery and predict brain activity an order of magnitude better than both reinforcement learning alternatives across cortical and subcortical regions, with effects robust to permutation controls. Through targeted manipulations, we further show that brain alignment reflects the model's in-context representation of the game state rather than its downstream planning or reasoning. Our results establish LRMs as compelling computational accounts of human learning and decision making in complex, naturalistic environments. Project page with interactive replays: https://botcs.github.io/reason-to-play/


翻译:人类在遭遇新环境时能快速习得抽象知识,并灵活运用这些知识指导高效智能的行动。现代AI系统能否以类似方式学习与规划?我们利用包含同步功能磁共振成像记录的复杂人类游戏行为数据集研究该问题,该数据集中参与者需学习涉及规则发现、假设修正及多步骤规划的新型电子游戏。通过联合评估模型在玩游戏、匹配人类学习行为及预测任务中脑活动三方面的能力,我们比较了一系列前沿大型推理模型与无模型/基于模型的深度强化学习智能体及贝叶斯理论智能体。研究发现前沿LRM在游戏探索阶段最接近人类行为模式,且对皮层及皮层下脑区活动的预测能力较两类强化学习替代模型高出一个数量级,该效应经置换检验验证具有稳健性。通过针对性操控实验,我们进一步证明脑对齐反映的是模型对游戏状态的上下文表征,而非其下游规划或推理过程。本研究确立了LRM作为人类在复杂自然环境中学习与决策过程可信计算模型的地位。含交互回放的项目页面:https://botcs.github.io/reason-to-play/

0
下载
关闭预览

相关内容

多智能体博弈中的分布式学习: 原理与算法
专知会员服务
54+阅读 · 2024年6月13日
人工智能与数学前沿综述:如何借助 AI 发现数学规律?
智能推演综述:博弈论视角下的战术战役兵棋与战略博弈
专知会员服务
138+阅读 · 2023年9月19日
【ChatGPT系列报告】AI大语言模型的原理、演进及算力测算
专知会员服务
151+阅读 · 2023年4月26日
「可解释知识图谱推理」最新方法综述
专知会员服务
89+阅读 · 2022年12月17日
「智能博弈」最新2022综述:游戏AI对作战推演的启示
专知会员服务
143+阅读 · 2022年8月30日
智能博弈综述:游戏AI 对作战推演的启示
专知会员服务
127+阅读 · 2022年8月29日
兵棋推演的智能决策技术与挑战
专知
28+阅读 · 2022年7月5日
专家报告 | 类脑智能与类脑计算
中国图象图形学报
19+阅读 · 2019年10月9日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员