Gaze estimation is instrumental in modern virtual reality (VR) systems. Despite significant progress in remote-camera gaze estimation, VR gaze research remains constrained by data scarcity, particularly the lack of large-scale, accurately labeled datasets captured with the off-axis camera configurations typical of modern headsets. Gaze annotation is difficult since fixation on intended targets cannot be guaranteed. To address these challenges, we introduce VRGaze, the first large-scale off-axis gaze estimation dataset for VR, comprising 2.1 million near-eye infrared images collected from 68 participants. We further propose GazeShift, an attention-guided unsupervised framework for learning gaze representations without labeled data. Unlike prior redirection-based methods that rely on multi-view or 3D geometry, GazeShift is tailored to near-eye imagery, achieving effective gaze-appearance disentanglement in a compact, real-time model. GazeShift embeddings can be optionally adapted to individual users via lightweight few-shot calibration, achieving a 1.84° mean error on VRGaze. On the remote-camera MPIIGaze dataset, the model achieves a 7.15° person-agnostic error, doing so with 10x fewer parameters and 35x fewer FLOPs than baseline methods. Deployed natively on a VR headset GPU, inference takes only 5 ms. Combined with demonstrated robustness to illumination changes, these results highlight GazeShift as a label-efficient, real-time solution for VR gaze tracking. Project code and the VRGaze dataset are released at https://github.com/gazeshift3/gazeshift


翻译:[translated abstract in Chinese] 注视估计在当代虚拟现实(VR)系统中具有关键作用。尽管远程摄像头注视估计已取得显著进展,但VR注视研究仍受限于数据稀缺性,尤其缺乏采用现代头戴设备典型离轴摄像头配置的大规模、精确标注数据集。由于难以确保受试者准确注视预设目标,注视标注工作存在较大困难。为应对上述挑战,我们提出VRGaze——首个面向VR的大规模离轴注视估计数据集,包含68名参与者采集的210万张近眼红外图像。进一步,我们提出GazeShift——一种注意力引导的无监督框架,可在无标注数据条件下学习注视表示。与依赖多视角或三维几何的传统重定向方法不同,GazeShift专为近眼图像设计,通过紧凑的实时模型实现高效的注视-外观解耦。该框架的嵌入表征可通过轻量级少样本校准实现个性化适配,在VRGaze数据集上达到1.84°的平均误差。在远程摄像头MPIIGaze数据集上,模型取得7.15°的跨个体误差,同时参数量降低10倍、浮点运算量减少35倍。在VR头显GPU上原生部署时,推理耗时仅需5毫秒。结合对光照变化的鲁棒性验证,这些结果表明GazeShift是一种兼具标签高效性与实时能力的VR视线追踪解决方案。项目代码与VRGaze数据集已在https://github.com/gazeshift3/gazeshift 开源。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
35+阅读 · 2023年3月20日
【CVPR2022】GaTector:凝视对象预测的统一框架
专知会员服务
10+阅读 · 2022年3月24日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员