Interactive assessments generate sequential process data that are not well handled by conventional item response models. Existing MDP-based measurement approaches, such as the Markov decision process measurement model (MDP-MM, LaMar, 2018), link action choices to state-action values, but their reliance on person-specific tabular value functions makes them difficult to scale beyond small, fully enumerated tasks. We propose the Reinforcement Learning Measurement Model (RLMM), a measurement framework that decouples person-level choice sensitivity from task-level value representation through a shared parametric action-value function, making estimation more computationally efficient for larger process-data settings. The model combines a Boltzmann choice rule with normalized advantages, a soft Bellman consistency penalty, and a block-coordinate MAP procedure for joint estimation, while also yielding step-level influence diagnostics for identifying behaviorally critical decisions. In peg-solitaire simulations, the RLMM achieved higher estimation accuracy and substantially lower runtime than the original MDP-MM, with advantages increasing as task complexity grew. In AQUALAB gameplay logs, the estimated person parameter was positively associated with cumulative reward, task completion, and behavioral efficiency. These results show that the RLMM extends decision-process-based psychometric models to larger and more behaviorally realistic environments while preserving an interpretable latent trait tied to decision making steps.


翻译:交互式评估生成的序贯过程数据是传统项目反应模型难以处理的。现有的基于马尔可夫决策过程(MDP)的测量方法,如马尔可夫决策过程测量模型(MDP-MM, LaMar, 2018),将行动选择与状态-行动价值关联起来,但其依赖于个体特定的表格化价值函数,使其难以扩展到除小型、完全枚举任务之外的场景。我们提出强化学习测量模型(RLMM),这是一种通过共享参数化行动-价值函数将个体水平的选择敏感性与任务水平的价值表示解耦的测量框架,从而在更大规模的过程数据场景中实现更高效的参数估计。该模型结合了玻尔兹曼选择规则与归一化优势、软贝尔曼一致性惩罚以及用于联合估计的块坐标最大后验(MAP)程序,同时提供步骤级的诊断影响指标,用于识别行为关键决策。在孔明棋模拟中,RLMM相比原始MDP-MM实现了更高的估计精度和显著更低的运行时间,且随着任务复杂度增加其优势更加明显。在AQUALAB游戏日志中,估计的个体参数与累积奖励、任务完成度及行为效率呈正相关。这些结果表明,RLMM将基于决策过程的心理测量模型推广到更大规模且更符合行为现实的场景中,同时保留了与决策步骤相关的可解释潜特质。

0
下载
关闭预览

相关内容

【ICLR2024】为样本高效的强化学习预训练基于目标的模型
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【简明书】强化学习的基础,111页pdf
专知会员服务
96+阅读 · 2022年11月16日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
超全总结:神经网络加速之量化模型 | 附带代码
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 6月8日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员