Reason to Play: Behavioral and Brain Alignment Between Frontier LRMs and Human Game Learners - 专知论文

会员服务 ·

0

Learning · MoDELS · 学习器 · 知识 (knowledge) · Agent ·

Reason to Play: Behavioral and Brain Alignment Between Frontier LRMs and Human Game Learners

翻译：推理即博弈：前沿逻辑推理模型与人类游戏学习者的行为与脑对齐

Botos Csaba,Sreejan Kumar,Austin Tudor David Andrews,Laurence Hunt,Chris Summerfield,Joshua B. Tenenbaum,Rui Ponte Costa,Marcelo G. Mattar,Momchil Tomov

Humans rapidly learn abstract knowledge when encountering novel environments and flexibly deploy this knowledge to guide efficient and intelligent action. Can modern AI systems learn and plan in a similar way? We study this question using a dataset of complex human gameplay with concurrent fMRI recordings, in which participants learn novel video games that require rule discovery, hypothesis revision, and multi-step planning. We jointly evaluate models by their ability to play the games, match human learning behavior, and predict brain activity during the same task, comparing a suite of frontier Large Reasoning Models (LRMs) against model-free and model-based deep reinforcement learning agents and a Bayesian theory-based agent. We find that frontier LRMs most closely match human behavioral patterns during game discovery and predict brain activity an order of magnitude better than both reinforcement learning alternatives across cortical and subcortical regions, with effects robust to permutation controls. Through targeted manipulations, we further show that brain alignment reflects the model's in-context representation of the game state rather than its downstream planning or reasoning. Our results establish LRMs as compelling computational accounts of human learning and decision making in complex, naturalistic environments. Project page with interactive replays: https://botcs.github.io/reason-to-play/

翻译：人类在遭遇新环境时能快速习得抽象知识，并灵活运用这些知识指导高效智能的行动。现代AI系统能否以类似方式学习与规划？我们利用包含同步功能磁共振成像记录的复杂人类游戏行为数据集研究该问题，该数据集中参与者需学习涉及规则发现、假设修正及多步骤规划的新型电子游戏。通过联合评估模型在玩游戏、匹配人类学习行为及预测任务中脑活动三方面的能力，我们比较了一系列前沿大型推理模型与无模型/基于模型的深度强化学习智能体及贝叶斯理论智能体。研究发现前沿LRM在游戏探索阶段最接近人类行为模式，且对皮层及皮层下脑区活动的预测能力较两类强化学习替代模型高出一个数量级，该效应经置换检验验证具有稳健性。通过针对性操控实验，我们进一步证明脑对齐反映的是模型对游戏状态的上下文表征，而非其下游规划或推理过程。本研究确立了LRM作为人类在复杂自然环境中学习与决策过程可信计算模型的地位。含交互回放的项目页面：https://botcs.github.io/reason-to-play/

0

相关内容

Learning

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

28+阅读 · 2025年11月17日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

多智能体博弈中的分布式学习：原理与算法

多智能体博弈中的分布式学习：原理与算法

专知会员服务

54+阅读 · 2024年6月13日

人工智能与数学前沿综述：如何借助 AI 发现数学规律？

人工智能与数学前沿综述：如何借助 AI 发现数学规律？

专知会员服务

53+阅读 · 2024年1月6日

智能推演综述：博弈论视角下的战术战役兵棋与战略博弈

智能推演综述：博弈论视角下的战术战役兵棋与战略博弈

专知会员服务

139+阅读 · 2023年9月19日

【ChatGPT系列报告】AI大语言模型的原理、演进及算力测算

【ChatGPT系列报告】AI大语言模型的原理、演进及算力测算

专知会员服务

151+阅读 · 2023年4月26日

「可解释知识图谱推理」最新方法综述

「可解释知识图谱推理」最新方法综述

专知会员服务

89+阅读 · 2022年12月17日

「智能博弈」最新2022综述:游戏AI对作战推演的启示

「智能博弈」最新2022综述:游戏AI对作战推演的启示

专知会员服务

144+阅读 · 2022年8月30日

智能博弈综述：游戏AI 对作战推演的启示

智能博弈综述：游戏AI 对作战推演的启示

专知会员服务

127+阅读 · 2022年8月29日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

专知

54+阅读 · 2022年11月14日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

28+阅读 · 2022年7月5日

清华大学、中国人工智能学会重磅发布《2019人工智能发展报告》！两大亮点抢先看（附下载）

清华大学、中国人工智能学会重磅发布《2019人工智能发展报告》！两大亮点抢先看（附下载）

新智元

16+阅读 · 2019年12月2日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

专家报告 | 类脑智能与类脑计算

专家报告 | 类脑智能与类脑计算

中国图象图形学报

19+阅读 · 2019年10月9日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Learning to Decide with AI Assistance under Human-Alignment

Arxiv

0+阅读 · 6月16日

Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models

Arxiv

0+阅读 · 6月15日

Order Is Not Control: Driven-Dissipative Response Laws Across Artificial and Biological Systems

Arxiv

0+阅读 · 6月12日

Reasoning as Pattern Matching: Shared Mechanisms in Human and LLM Everyday Reasoning

Arxiv

0+阅读 · 6月11日

A Tutorial on World Models and Physical AI

Arxiv

0+阅读 · 6月11日

MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes

Arxiv

0+阅读 · 6月10日

Clinical Reasoning in the Age of AI: Longitudinal Cognition and Human-AI Collaboration

Arxiv

0+阅读 · 6月7日

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

Arxiv

0+阅读 · 6月5日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 5月21日

Intentmaking and Sensemaking: Human Interaction with AI-Guided Mathematical Discovery

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

知识 (knowledge)

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

28+阅读 · 2025年11月17日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

多智能体博弈中的分布式学习：原理与算法

多智能体博弈中的分布式学习：原理与算法

专知会员服务

54+阅读 · 2024年6月13日

人工智能与数学前沿综述：如何借助 AI 发现数学规律？

人工智能与数学前沿综述：如何借助 AI 发现数学规律？

专知会员服务

53+阅读 · 2024年1月6日

智能推演综述：博弈论视角下的战术战役兵棋与战略博弈

智能推演综述：博弈论视角下的战术战役兵棋与战略博弈

专知会员服务

139+阅读 · 2023年9月19日

【ChatGPT系列报告】AI大语言模型的原理、演进及算力测算

【ChatGPT系列报告】AI大语言模型的原理、演进及算力测算

专知会员服务

151+阅读 · 2023年4月26日

「可解释知识图谱推理」最新方法综述

「可解释知识图谱推理」最新方法综述

专知会员服务

89+阅读 · 2022年12月17日

「智能博弈」最新2022综述:游戏AI对作战推演的启示

「智能博弈」最新2022综述:游戏AI对作战推演的启示

专知会员服务

144+阅读 · 2022年8月30日

智能博弈综述：游戏AI 对作战推演的启示

智能博弈综述：游戏AI 对作战推演的启示

专知会员服务

127+阅读 · 2022年8月29日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

专知

54+阅读 · 2022年11月14日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

28+阅读 · 2022年7月5日

清华大学、中国人工智能学会重磅发布《2019人工智能发展报告》！两大亮点抢先看（附下载）

清华大学、中国人工智能学会重磅发布《2019人工智能发展报告》！两大亮点抢先看（附下载）

新智元

16+阅读 · 2019年12月2日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

专家报告 | 类脑智能与类脑计算

专家报告 | 类脑智能与类脑计算

中国图象图形学报

19+阅读 · 2019年10月9日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Learning to Decide with AI Assistance under Human-Alignment

Arxiv

0+阅读 · 6月16日

Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models

Arxiv

0+阅读 · 6月15日

Order Is Not Control: Driven-Dissipative Response Laws Across Artificial and Biological Systems

Arxiv

0+阅读 · 6月12日

Reasoning as Pattern Matching: Shared Mechanisms in Human and LLM Everyday Reasoning

Arxiv

0+阅读 · 6月11日

A Tutorial on World Models and Physical AI

Arxiv

0+阅读 · 6月11日

MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes

Arxiv

0+阅读 · 6月10日

Clinical Reasoning in the Age of AI: Longitudinal Cognition and Human-AI Collaboration

Arxiv

0+阅读 · 6月7日

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

Arxiv

0+阅读 · 6月5日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 5月21日

Intentmaking and Sensemaking: Human Interaction with AI-Guided Mathematical Discovery

Arxiv

0+阅读 · 5月7日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员