Automatic image rotation estimation is a key preprocessing step in many vision pipelines. This task is challenging because angles have circular topology, creating boundary discontinuities that hinder standard regression methods. We present a comprehensive study of five circular-aware methods for global orientation estimation: direct angle regression with circular loss, classification via angular binning, unit-vector regression, phase-shifting coder, and circular Gaussian distribution. Using transfer learning from ImageNet-pretrained models, we systematically evaluate these methods across sixteen modern architectures by adapting their output heads for rotation-specific predictions. Our results show that probabilistic methods, particularly the circular Gaussian distribution, are the most robust across architectures, while classification achieves the best accuracy on well-matched backbones but suffers training instabilities on others. The best configuration (classification with EfficientViT-B3) achieves a mean absolute error (MAE) of 1.23° (mean across five independent runs) on the DRC-D dataset, while the circular Gaussian distribution with MambaOut Base achieves a virtually identical 1.24° with greater robustness across backbones. Training and evaluating our top-performing method-architecture combinations on COCO 2014, the best configuration reaches 3.71° MAE, improving substantially over prior work, with further improvement to 2.84° on the larger COCO 2017 dataset.


翻译:自动图像旋转估计是许多视觉流水线中的关键预处理步骤。该任务具有挑战性,因为角度具有循环拓扑结构,会产生边界不连续性,从而阻碍标准回归方法。我们对五种全局方向估计的循环感知方法进行了全面研究:采用循环损失的直接角度回归、基于角度分箱的分类、单位向量回归、相移编码器以及循环高斯分布。通过利用ImageNet预训练模型的迁移学习,我们系统评估了这五种方法在十六种现代架构上的表现,方法是通过调整其输出头以进行旋转特定的预测。结果表明,概率方法(尤其是循环高斯分布)在不同架构中最为稳健,而分类方法在匹配良好的骨干网络上能达到最佳精度,但在其他网络上会出现训练不稳定性。最佳配置(EfficientViT-B3分类方法)在DRC-D数据集上的平均绝对误差(MAE)为1.23°(五次独立运行的平均值),而使用MambaOut Base骨干网络的循环高斯分布方法实现了几乎相同的1.24° MAE,且在跨骨干网络上表现出更强的鲁棒性。将我们的最佳方法-架构组合在COCO 2014数据集上进行训练和评估,最佳配置的MAE达到3.71°,较先前工作显著提升,而在更大的COCO 2017数据集上进一步改进至2.84°。

0
下载
关闭预览

相关内容

迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
深度学习的遥感图像旋转目标检测综述
专知会员服务
29+阅读 · 2024年4月3日
用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
18+阅读 · 2022年4月18日
【AAAI2022】基于特征纯化的视线估计算法
专知会员服务
10+阅读 · 2022年2月11日
ICLR 2019 | 基于复杂空间关系旋转的知识表示方法
PaperWeekly
17+阅读 · 2019年7月29日
计算机视觉方向简介 | 人体姿态估计
计算机视觉life
28+阅读 · 2019年6月6日
深度学习人体姿态估计算法综述
AI前线
25+阅读 · 2019年5月19日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
在人工智能加速决策环境中拓展OODA循环
专知会员服务
0+阅读 · 17分钟前
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 32分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员