CR-Eyes: A Computational Rational Model of Visual Sampling Behavior in Atari Games - 专知论文

会员服务 ·

0

Atari · 理性模型 · 设计 · 交互 · 显著性 ·

CR-Eyes: A Computational Rational Model of Visual Sampling Behavior in Atari Games

翻译：CR-Eyes：一种Atari游戏中视觉采样行为的计算理性模型

Martin Lorenz,Niko Konzack,Alexander Lingler,Philipp Wintersberger,Patrick Ebel

from arxiv, 6 pages, 5 figures, CHI'26 Extended Abstract (Poster)

Designing mobile and interactive technologies requires understanding how users sample dynamic environments to acquire information and make decisions under time pressure. However, existing computational user models either rely on hand-crafted task representations or are limited to static or non-interactive visual inputs, restricting their applicability to realistic, pixel-based environments. We present CR-Eyes, a computationally rational model that simulates visual sampling and gameplay behavior in Atari games. Trained via reinforcement learning, CR-Eyes operates under perceptual and cognitive constraints and jointly learns where to look and how to act in a time-sensitive setting. By explicitly closing the perception-action loop, the model treats eye movements as goal-directed actions rather than as isolated saliency predictions. Our evaluation shows strong alignment with human data in task performance and aggregate saliency patterns, while also revealing systematic differences in scanpaths. CR-Eyes is a step toward scalable, theory-grounded user models that support design and evaluation of interactive systems.

翻译：设计移动和交互技术需要理解用户如何在动态环境中采样信息并在时间压力下做出决策。然而，现有的计算用户模型要么依赖人工设计的任务表示，要么局限于静态或非交互式视觉输入，限制了它们在基于像素的现实环境中的适用性。我们提出了CR-Eyes，一种在Atari游戏中模拟视觉采样和游戏行为的计算理性模型。通过强化学习训练，CR-Eyes在感知和认知约束下运作，并联合学习在时间敏感环境中哪里看和如何行动。通过显式闭合感知-行动回路，该模型将眼动视为目标导向的动作，而非孤立的显著性预测。我们的评估显示，在任务性能和聚合显著性模式方面与人类数据高度一致，同时揭示了扫描路径中的系统差异。CR-Eyes朝着可扩展、有理论依据的用户模型迈出了一步，支持交互系统的设计与评估。

0

相关内容

Atari

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

21+阅读 · 2025年8月29日

视觉通用模型综述

视觉通用模型综述

专知会员服务

28+阅读 · 2025年6月12日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

11+阅读 · 2025年5月6日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

【斯坦福博士论文】生成模型的视觉与行为

【斯坦福博士论文】生成模型的视觉与行为

专知会员服务

33+阅读 · 2024年7月11日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

【ICLR 2022】无监督计算机视觉的最新技术：MIT等科学家“通过提取特征对应的无监督语义分割”Unsupervised semantic segmentation by distilling feature correspondences

【ICLR 2022】无监督计算机视觉的最新技术：MIT等科学家“通过提取特征对应的无监督语义分割”Unsupervised semantic segmentation by distilling feature correspondences

专知会员服务

37+阅读 · 2022年4月23日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【学科发展报告】计算机视觉

【学科发展报告】计算机视觉

中国自动化学会

43+阅读 · 2018年10月12日

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

商汤科技

14+阅读 · 2018年6月2日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

深度相机原理揭秘--双目立体视觉

深度相机原理揭秘--双目立体视觉

计算机视觉life

10+阅读 · 2017年11月7日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

EyeMulator: Improving Code Language Models by Mimicking Human Visual Attention

Arxiv

0+阅读 · 4月19日

CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space

Arxiv

0+阅读 · 4月13日

Visually-grounded Humanoid Agents

Arxiv

0+阅读 · 4月9日

Eyes Can't Always Tell: Fusing Eye Tracking and User Priors for User Modeling under AI Advice Conditions

Arxiv

0+阅读 · 4月2日

The People's Gaze: Co-Designing and Refining Gaze Gestures with General Users and Gaze Interaction Experts

Arxiv

0+阅读 · 3月24日

PEARL: Personalized Streaming Video Understanding Model

Arxiv

0+阅读 · 3月20日

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Arxiv

0+阅读 · 3月17日

Seeing Eye to Eye: Enabling Cognitive Alignment Through Shared First-Person Perspective in Human-AI Collaboration

Arxiv

0+阅读 · 3月13日

A Resource-Rational Principle for Modeling Visual Attention Control

Arxiv

0+阅读 · 3月2日

SIAgent: Spatial Interaction Agent via LLM-powered Eye-Hand Motion Intent Understanding in VR

Arxiv

0+阅读 · 2月28日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

3+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

21+阅读 · 2025年8月29日

视觉通用模型综述

视觉通用模型综述

专知会员服务

28+阅读 · 2025年6月12日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

11+阅读 · 2025年5月6日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

【斯坦福博士论文】生成模型的视觉与行为

【斯坦福博士论文】生成模型的视觉与行为

专知会员服务

33+阅读 · 2024年7月11日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

【ICLR 2022】无监督计算机视觉的最新技术：MIT等科学家“通过提取特征对应的无监督语义分割”Unsupervised semantic segmentation by distilling feature correspondences

【ICLR 2022】无监督计算机视觉的最新技术：MIT等科学家“通过提取特征对应的无监督语义分割”Unsupervised semantic segmentation by distilling feature correspondences

专知会员服务

37+阅读 · 2022年4月23日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【学科发展报告】计算机视觉

【学科发展报告】计算机视觉

中国自动化学会

43+阅读 · 2018年10月12日

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

商汤科技

14+阅读 · 2018年6月2日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

深度相机原理揭秘--双目立体视觉

深度相机原理揭秘--双目立体视觉

计算机视觉life

10+阅读 · 2017年11月7日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

EyeMulator: Improving Code Language Models by Mimicking Human Visual Attention

Arxiv

0+阅读 · 4月19日

CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space

Arxiv

0+阅读 · 4月13日

Visually-grounded Humanoid Agents

Arxiv

0+阅读 · 4月9日

Eyes Can't Always Tell: Fusing Eye Tracking and User Priors for User Modeling under AI Advice Conditions

Arxiv

0+阅读 · 4月2日

The People's Gaze: Co-Designing and Refining Gaze Gestures with General Users and Gaze Interaction Experts

Arxiv

0+阅读 · 3月24日

PEARL: Personalized Streaming Video Understanding Model

Arxiv

0+阅读 · 3月20日

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Arxiv

0+阅读 · 3月17日

Seeing Eye to Eye: Enabling Cognitive Alignment Through Shared First-Person Perspective in Human-AI Collaboration

Arxiv

0+阅读 · 3月13日

A Resource-Rational Principle for Modeling Visual Attention Control

Arxiv

0+阅读 · 3月2日

SIAgent: Spatial Interaction Agent via LLM-powered Eye-Hand Motion Intent Understanding in VR

Arxiv

0+阅读 · 2月28日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员