Gaze estimation methods commonly use facial appearances to predict the direction of a person gaze. However, previous studies show three major challenges with convolutional neural network (CNN)-based, transformer-based, and contrastive language-image pre-training (CLIP)-based methods, including late fusion of image features, lack of factor-aware conditioning, and impractical capacity scaling. To address these challenges, we propose Globally-conditioned Multi-scale Gaze estimation (GMGaze), which leverages a multi-scale transformer architecture. Specifically, the model first introduces semantic prototype conditioning, which modulates the CLIP global image embedding using four learned prototype banks (i.e., illumination, background, head pose and appearance) to generate two complementary context-biased global tokens. These tokens, along with the CLIP patch and CNN tokens, are fused at the first layer. This early unified fusion prevents information loss common in late-stage merging. Finally, each token passes through sparse Mixture-of-Experts modules, providing conditional computational capacity without uniformly increasing dense parameters. For cross-domain adaptation, we incorporate an adversarial domain adaptation technique with a feature separation loss that encourages the two global tokens to remain de-correlated. Experiments using four public benchmarks (MPIIFaceGaze, EYEDIAP, Gaze360, and ETH-XGaze) show that GMGaze achieves mean angular errors of 2.49$^\circ$, 3.22$^\circ$, 10.16$^\circ$, and 1.44$^\circ$, respectively, outperforming previous baselines in all within-domain settings. In cross-domain evaluations, it provides state-of-the-art (SOTA) results on two standard transfer routes.


翻译:注视估计方法通常利用面部外观预测人的注视方向。然而,先前研究表明,基于卷积神经网络(CNN)、Transformer和对比语言-图像预训练(CLIP)的方法存在三大挑战:图像特征融合延迟、缺乏因子感知条件控制以及容量扩展不实用。为解决这些问题,我们提出全局条件多尺度注视估计方法(GMGaze),其采用多尺度Transformer架构。具体而言,模型首先引入语义原型条件控制,通过四个学习到的原型库(即光照、背景、头部姿态和外观)调制CLIP全局图像嵌入,生成两类互补的上下文偏置全局标记。这些标记与CLIP补丁标记及CNN标记在第一层完成融合。这种早期统一融合避免了后期合并中常见的信息丢失。最后,每个标记通过稀疏混合专家模块,在无需均匀增加密集参数的情况下提供条件计算容量。针对跨域适应,我们引入对抗域适应技术,并采用特征分离损失促进两个全局标记保持去相关。在四个公开基准数据集(MPIIFaceGaze、EYEDIAP、Gaze360和ETH-XGaze)上的实验表明,GMGaze分别达到2.49°、3.22°、10.16°和1.44°的平均角度误差,在所有域内设置中均优于先前基线方法。在跨域评估中,该方法在两个标准迁移路径上取得了最先进(SOTA)结果。

0
下载
关闭预览

相关内容

迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
标注受限场景下的视觉表征与理解
专知会员服务
14+阅读 · 2025年2月6日
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
【AAAI2022】基于特征纯化的视线估计算法
专知会员服务
10+阅读 · 2022年2月11日
专知会员服务
65+阅读 · 2021年4月11日
视线估计(Gaze Estimation)简介(一):概述
CVer
10+阅读 · 2020年3月18日
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
2+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员