Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning - 专知论文

会员服务 ·

0

视频 · 排序 · 识别 · 辅助增强 · 增强现实 ·

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

翻译：真实注视实现更快：基于凝视稳定性与瞳孔新奇性的高效第一人称学习

Ajan Subramanian,Sumukh Bettadapura,Rohan Sathish

from arxiv, 14 pages, 4 figures, 3 tables, plus supplementary material

Always-on egocentric cameras are increasingly used as demonstrations for embodied robotics, imitation learning, and assistive AR, but the resulting video streams are dominated by redundant and low-quality frames. Under the storage and battery constraints of wearable devices, choosing which frames to keep is as important as how to learn from them. We observe that modern eye-tracking headsets provide a continuous, training-free side channel that decomposes into two complementary axes: gaze fixation captures visual stability (quality), while pupil response captures arousal-linked moments (novelty). We operationalize this insight as a Dual-Criterion Frame Curator that first gates frames by gaze quality and then ranks the survivors by pupil-derived novelty. On the Visual Experience Dataset (VEDB), curated frames at 10% budget match the classification performance of the full stream, and naive signal fusion consistently destroys both contributions. The benefit is task-dependent: pupil ranking improves activity recognition, while gaze-only selection already dominates for scene recognition, confirming that the two signals serve genuinely different roles. Our method requires no model inference and operates at capture time, offering a path toward efficient, always-on egocentric data curation.

翻译：始终开启的第一人称摄像头日益被用作具身机器人、模仿学习及辅助增强现实的演示工具，但由此产生的视频流充斥着大量冗余与低质量帧。在可穿戴设备的存储与电池限制下，选择保留哪些帧与如何从中学习同等重要。我们观察到，现代眼动追踪头显提供了一个连续、无需训练的辅助通道，可分解为两个互补维度：凝视固定捕捉视觉稳定性（质量），而瞳孔反应则捕捉与唤醒相关的关键瞬间（新奇性）。我们将这一洞见具体化为双准则帧筛选器，该筛选器首先通过凝视质量对帧进行门控筛选，随后依据瞳孔衍生的新奇性对保留帧进行排序。在视觉经验数据集（VEDB）上，以10%预算筛选的帧在分类性能上匹配完整视频流，而简单的信号融合则会持续破坏两者的贡献。其优势具有任务依赖性：瞳孔排序提升了活动识别性能，而仅基于凝视的筛选在场景识别任务中已占据主导地位，这证实了两种信号确实发挥着不同的作用。我们的方法无需模型推理，可在捕获时实时运行，为高效、始终开启的第一人称数据筛选提供了一条可行路径。

0

相关内容

视频

《合成视觉系统与头戴式显示器的操作及人因考量：文献综述与调查研究结果》2026最新136页长综述报告

《合成视觉系统与头戴式显示器的操作及人因考量：文献综述与调查研究结果》2026最新136页长综述报告

专知会员服务

19+阅读 · 1月15日

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

专知会员服务

21+阅读 · 2022年12月13日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

基于深度神经网络的高效视觉识别研究进展与新方向

基于深度神经网络的高效视觉识别研究进展与新方向

专知会员服务

40+阅读 · 2021年8月31日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【2020新书】深度学习视觉系统，Deep Learning for Vision Systems, 396页pdf

【2020新书】深度学习视觉系统，Deep Learning for Vision Systems, 396页pdf

专知会员服务

171+阅读 · 2020年2月18日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

专知会员服务

58+阅读 · 2019年12月2日

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

专知会员服务

16+阅读 · 2019年10月21日

深度学习注意力机制-Attention in Deep learning-附101页PPT

深度学习注意力机制-Attention in Deep learning-附101页PPT

专知

139+阅读 · 2019年9月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

深度学习的快速目标跟踪

深度学习的快速目标跟踪

AI研习社

13+阅读 · 2018年1月8日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

视知觉学习中的脑功能网络变化及其与学习效果的关系

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation

Arxiv

0+阅读 · 5月4日

Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances

Arxiv

0+阅读 · 5月1日

Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs

Arxiv

0+阅读 · 4月23日

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

Arxiv

0+阅读 · 4月9日

Seeing enough: non-reference perceptual resolution selection for power-efficient client-side rendering

Arxiv

0+阅读 · 4月9日

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 3月26日

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

Arxiv

0+阅读 · 3月20日

HiFiGaze: Improving Eye Tracking Accuracy Using Screen Content Knowledge

Arxiv

0+阅读 · 3月20日

Seeing Eye to Eye: Enabling Cognitive Alignment Through Shared First-Person Perspective in Human-AI Collaboration

Arxiv

0+阅读 · 3月13日

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

0+阅读 · 17分钟前

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

1+阅读 · 27分钟前

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

2+阅读 · 32分钟前

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

2+阅读 · 43分钟前

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

3+阅读 · 44分钟前

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

3+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

9+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

4+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

6+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

相关VIP内容

《合成视觉系统与头戴式显示器的操作及人因考量：文献综述与调查研究结果》2026最新136页长综述报告

《合成视觉系统与头戴式显示器的操作及人因考量：文献综述与调查研究结果》2026最新136页长综述报告

专知会员服务

19+阅读 · 1月15日

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

专知会员服务

21+阅读 · 2022年12月13日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

基于深度神经网络的高效视觉识别研究进展与新方向

基于深度神经网络的高效视觉识别研究进展与新方向

专知会员服务

40+阅读 · 2021年8月31日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【2020新书】深度学习视觉系统，Deep Learning for Vision Systems, 396页pdf

【2020新书】深度学习视觉系统，Deep Learning for Vision Systems, 396页pdf

专知会员服务

171+阅读 · 2020年2月18日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

专知会员服务

58+阅读 · 2019年12月2日

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

专知会员服务

16+阅读 · 2019年10月21日

热门VIP内容

开通专知VIP会员享更多权益服务

美以伊战争：首次人工智能战争——军事自主性困境

《美海军利用扩展现实增强知识流动研究》300页报告

以色列-美国-伊朗战争中的无人机：关键要点

《Palantir任务保障性软件安全标准（MA-S2）》

相关资讯

深度学习注意力机制-Attention in Deep learning-附101页PPT

深度学习注意力机制-Attention in Deep learning-附101页PPT

专知

139+阅读 · 2019年9月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

深度学习的快速目标跟踪

深度学习的快速目标跟踪

AI研习社

13+阅读 · 2018年1月8日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

相关论文

Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation

Arxiv

0+阅读 · 5月4日

Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances

Arxiv

0+阅读 · 5月1日

Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs

Arxiv

0+阅读 · 4月23日

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

Arxiv

0+阅读 · 4月9日

Seeing enough: non-reference perceptual resolution selection for power-efficient client-side rendering

Arxiv

0+阅读 · 4月9日

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 3月26日

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

Arxiv

0+阅读 · 3月20日

HiFiGaze: Improving Eye Tracking Accuracy Using Screen Content Knowledge

Arxiv

0+阅读 · 3月20日

Seeing Eye to Eye: Enabling Cognitive Alignment Through Shared First-Person Perspective in Human-AI Collaboration

Arxiv

0+阅读 · 3月13日

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

Arxiv

0+阅读 · 2月24日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

视知觉学习中的脑功能网络变化及其与学习效果的关系

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员