Human gaze estimation is essential for applications such as human-computer interaction, social robotics, and assistive systems. However, achieving accurate, interpretable, and real-time performance in unconstrained environments remains challenging. Existing appearance-based methods often face trade-offs between spatial robustness, computational efficiency, and effective use of contextual information. To address this, we introduce CapStARE, a capsule-based architecture that combines a frozen ConvNeXt backbone for efficient feature extraction, capsule formation with attention-based routing for structured facial reasoning, and dual GRU decoders for lightweight sequential modeling over short-horizon observation windows. This design preserves interpretable part-whole facial relationships while improving prediction stability through local contextual consistency. Experimental results demonstrate strong performance on ETH-XGaze (3.36) and MPIIFaceGaze (2.65), while also generalizing competitively on Gaze360 (9.06), all with real-time inference (<10 ms). These findings suggest that the proposed method provides a practical and robust framework for appearance-based gaze estimation in real-world interactive environments. The related code and experimental results are publicly available at: https://github.com/toukapy/capsStare


翻译:人类目光估计在人机交互、社交机器人和辅助系统等应用中至关重要。然而,在非约束环境下实现准确、可解释且实时的性能仍具挑战性。现有基于外观的方法常在空间鲁棒性、计算效率和上下文信息有效利用之间面临权衡。为此,我们提出CapStARE——一种基于胶囊的架构,它结合了冻结ConvNeXt骨干网络用于高效特征提取、基于注意力路由的胶囊形成实现结构化面部推理,以及双GRU解码器用于短时域观测窗口内的轻量级序列建模。该设计在通过局部上下文一致性提升预测稳定性的同时,保留了可解释的部分-整体面部关系。实验结果表明,该方法在ETH-XGaze(3.36)和MPIIFaceGaze(2.65)上表现优异,同时在Gaze360(9.06)上展现出具有竞争力的泛化能力,且均实现实时推理(<10毫秒)。这些发现表明,所提方法为现实交互环境中基于外观的目光估计提供了实用且鲁棒的框架。相关代码和实验结果公开于:https://github.com/toukapy/capsStare

0
下载
关闭预览

相关内容

【博士论文】面向开放式世界的鲁棒智能体
专知会员服务
25+阅读 · 2025年12月10日
鲁棒模式识别研究进展
专知会员服务
41+阅读 · 2020年8月9日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
69+阅读 · 2020年2月29日
【仿真+AI】浅谈AI在CAE领域的应用
产业智能官
13+阅读 · 2019年12月7日
CVPR2019教程《胶囊网络(Capsule Networks)综述》,附93页PPT
GAN生成式对抗网络
29+阅读 · 2019年6月21日
CapsNet入门系列之四:胶囊网络架构
论智
12+阅读 · 2018年2月23日
CapsNet入门系列之二:胶囊如何工作
论智
11+阅读 · 2017年11月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
0+阅读 · 54分钟前
Agentic RL:框架、实践与长程智能体训练
专知会员服务
0+阅读 · 56分钟前
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员